Nos últimos anos, a IA dominou todas as discussões sobre tendências tecnológicas. Claro, os PCs são mais rápidos e duram mais, os telefones podem tirar fotos atraentes e as TVs estão melhores do que nunca. No entanto, essas mudanças foram em sua maioria graduais. A maior mudança é o surgimento de modelos de linguagem em grande escala, chatbots e, embora ainda na sua infância, agentes de IA.
Isso teve um impacto significativo no design do sistema. Os PCs e telefones modernos agora usam processadores neurais (NPUs) para executar modelos de IA localmente. Mas as mudanças nos servidores e nos data centers que os administram foram muito mais dramáticas. Embora provavelmente continuemos a precisar de servidores tradicionais baseados em CPU por muito tempo, cada novo aplicativo requer um grande número de unidades de processamento gráfico (GPUs), mesmo que elas não façam gráficos.
É claro que isso levou ao surgimento de uma variedade de chips novos e aprimorados para executar esses aplicativos. A Nvidia, que iniciou a tendência de uso mais geral de GPUs e onde grande parte do treinamento crítico de IA ainda acontece em chips, lança novos chips projetados para data centers todos os anos. A rival de longa data AMD entrou na briga, especialmente com entradas confiáveis em sua linha Instinct no ano passado. E todos os grandes fornecedores de computação em nuvem (hyperscalers) parecem ter chips proprietários dedicados à execução de seus próprios aplicativos de IA, a maioria dos quais focados em inferência, incluindo TPU do Google, Trainium da Amazon e Maia da Microsoft. Todos eles lançaram novas versões nos últimos meses.
Isso deixou para trás as arquiteturas tradicionais de CPU e exigiu o redesenho de aplicativos, sistemas e data centers de IA. Na verdade, há boas razões para pensar que a procura projectada para novos centros de dados equipados com estes chips será tão grande que necessitarão da sua própria fonte de energia. Os hiperscaladores até falaram sobre construir ou reiniciar usinas nucleares.
Uma coisa que me chamou a atenção recentemente é como isso impactou o design de sistemas em grandes data centers. Em vez de um grande provedor de nuvem ou algumas grandes empresas de informática projetarem o sistema, os fabricantes de GPU (primeira Nvidia, agora acompanhada pela AMD) não apenas projetam novos chips e placas, mas na verdade possuem o sistema inteiro, incluindo todos os componentes necessários para construir um rack de servidor.
Tudo isso ficou muito claro na CES 2026. O que mais me chamou a atenção não foi o segmento de eletrônicos de consumo que originalmente deu nome ao programa, mas os enormes servidores para data centers de grande escala, incluindo o Helios da AMD equipado com as mais recentes placas gráficas Instinct e Vera Rubin da Nvidia com sua arquitetura de próxima geração. O que me chama a atenção é o quão focadas ambas as empresas estão na sua actual abordagem de sistemas, prometendo não só um melhor desempenho, mas também uma eficiência muito maior. Esta pode ser a mudança mais significativa que vimos no design de computadores nos últimos anos.
Vera Rubin da NVIDIA
CEO da NVIDIA, Jensen Huang (Foto: Patrick T. Fallon/AFP via Getty Images)
Na CES, o CEO da Nvidia, Jensen Huang, concentrou-se na “AI Factory” de Vera Rubin, sua plataforma de servidor de data center de próxima geração. Este é um projeto de sistema completo que inclui uma GPU Rubin e uma CPU baseada em Vera ARM, bem como quatro outros chips: um switch NVLink 6 para rede escalável (ou seja, rede intra-rack), fotônica Spectrum-X Ethernet para rede escalável (ou seja, rede entre rack), uma placa de interface de rede CX9 e uma unidade de processamento de dados BlueField 4. O Vera Rubin NVL72 completo tem 72 GPUs, que a Nvidia diz oferecer 50 petaflops em FP4 (inferência de precisão de 4 bits) e 36 CPUs. Huang disse que o sistema está atualmente em produção.

NVIDIA Vera Rubin (Crédito: Michael J. Miller)
“A quantidade de computação necessária para a IA está disparando”, explica Huang, observando que os melhores modelos estão aumentando o número de parâmetros por um fator de 10 por ano, e as extensões de tempo de teste, ou “inferência”, estão usando até cinco vezes o número de tokens por ano. A Nvidia diz que ao se concentrar no projeto conjunto de todos os seis chips do sistema, a empresa conseguiu uma redução de 10x no custo de inferência por token em comparação com a geração anterior de servidores agora baseados em GPUs Blackwell. Em uma sessão subsequente de perguntas e respostas, Huang disse que haveria um aumento de cinco vezes no rendimento por watt.

Lisa Su tem uma CPU AMD EPYC ‘Veneza’ (Crédito: Bridget Bennett/Bloomberg via Getty Images)
A CEO da AMD, Lisa Su, foi igualmente poderosa em sua palestra na CES. Ela observou que a IA passará de 1 zetaflop (operações de ponto flutuante) em 2022 para mais de 100 zetaflops em 2025. “Não temos poder de computação suficiente para fazer tudo o que podemos”.
Receba as melhores histórias direto na sua caixa de entrada!
Sua dose diária das melhores notícias de tecnologia
Ao clicar em inscrever-se, você confirma que tem 16 anos ou mais e concorda com nossos Termos de Uso e Política de Privacidade.
Obrigado por se inscrever!
Sua assinatura foi confirmada. Observe sua caixa de entrada com atenção!
“Para permitir a IA em todos os lugares, a capacidade de computação mundial precisará aumentar 100 vezes nos próximos anos, para mais de 10 yotaFLOPs (três bilhões de operações de ponto flutuante) nos próximos cinco anos”, disse ela. Ele observou que isso seria 10.000 vezes mais computação do que em 2022 e seria um salto maior do que qualquer coisa que vimos até agora na história da computação.

AMD Helios (Crédito: Michael J. Miller)
A solução da AMD para isso é uma nova versão de sua GPU Instinct chamada MI455X e seu próprio produto de nível de sistema chamado Helios. Inclui uma nova CPU Epyc, codinome Venice, junto com o acelerador Instinct MI455 com memória HBM4 ultrarrápida e duas unidades de processamento de dados (DPUs) Pensando – a DPU Salian existente e uma nova DPU chamada Vulcano que oferece UltraEthernet mais rápida para computação em expansão. Isso permite 72 GPUs por rack, o que, segundo Su, gerará 2,9 exaflops de computação de IA com 4.600 núcleos de CPU, 18.000 unidades de computação de GPU e 31 TB de memória HBM4. Isso está programado para ser lançado ainda este ano. Os chips do próximo ano, a série MI500, serão 10 vezes mais rápidos, e Su promete que a combinação proporcionará uma melhoria de 1.000 vezes no desempenho da IA ao longo de quatro anos.
Por que o foco no sistema é importante
Uma melhoria de 1.000x é incrível. Isto é muito mais rápido do que o esperado devido à extensão da Lei de Moore. Na verdade, está desacelerando de qualquer maneira. Isto se deve a duas melhorias no nível do chip, incluindo conexões de memória mais rápidas. E no nível do sistema, onde todas as diferentes partes do sistema são projetadas para funcionarem juntas. É claro que os designers de software de IA também estão focados em tornar os sistemas mais eficientes.
Todas essas melhorias são críticas porque, se o uso de IA e de agentes continuar a crescer, esses aplicativos exigirão novos sistemas e novos data centers para serem executados. E à medida que os custos diminuem, seria de esperar que a procura só aumentasse. No entanto, há apenas um número limitado de data centers que podem ser construídos rapidamente, portanto, torná-los mais eficientes – obtendo mais transações de cada servidor e usando menos energia por transação – é fundamental.
Todos os grandes players de IA e hiperescaladores prometeram novos data centers, mas todos eles são limitados pela quantidade de energia disponível. A nova geração de energia não está crescendo tão rapidamente quanto a demanda dos data centers, por isso é importante focar na melhoria da eficiência energética.
IA híbrida
Outra grande tendência que notei na CES foi o crescente interesse em “IA híbrida”. AMD, Nvidia, Intel, Lenovo e Qualcomm usaram a frase em palestras e eventos de imprensa. Mas o que exatamente isso significa varia.

Rack Lenovo (Crédito: Michael J. Miller)
A NVIDIA falou sobre três tipos de IA: treinamento, inferência e simulação. AMD, Intel e Lenovo falaram sobre servidores de data center e servidores na “borda”, fornecendo inferência. AMD, Intel e Qualcomm falaram sobre a execução de modelos locais de IA em PCs, e a Microsoft também tem falado sobre isso nos últimos meses. E a Qualcomm e a Lenovo (incluindo a família Motorola) falaram sobre a execução de IA em telefones.
O foco na IA em todos os lugares deixa claro o quanto ela passou a dominar as discussões sobre tecnologia. Todos os produtos eletrônicos de consumo que vi no programa pareciam ter algum tipo de ângulo de IA, mas a maioria eram novas versões de produtos lançados há anos (como processamento de imagem aprimorado em TVs) ou apenas outro nome para software.
No entanto, não há dúvida de que os dispositivos, as aplicações que executamos, o software pessoal tradicional e as aplicações empresariais estão todos a passar por grandes mudanças, com ênfase na IA. Muita coisa já mudou, mas mudanças maiores ainda estão por vir.
Introdução aos especialistas
Michael J. Miller
ex-editor-chefe
experiência
Michael J. Miller é Diretor de Informações da Ziff Brothers Investments, uma empresa de investimentos privados. De 1991 a 2005, Miller Revista PC,Responsável pela direção editorial, qualidade e apresentação da maior publicação de informática do mundo. Esta coluna não fornece conselhos de investimento. Todas as obrigações são isentas. Miller trabalha separadamente para uma empresa de investimento privada que pode investir a qualquer momento em empresas cujos produtos são discutidos e não divulga negociações de valores mobiliários.
Até o final de 2006, Miller foi Diretor de Conteúdo da Ziff Davis Media, onde supervisionou os cargos editoriais das revistas, sites e eventos de Ziff Davis. Como Diretor Editorial da Ziff Davis Publishing desde 1997, Miller tem estado ativamente envolvido na identificação de novas necessidades editoriais no mercado e na definição da posição editorial de todos os títulos da Ziff Davis. Sob a supervisão de Miller, Revista PC Tem o maior público leitor de qualquer publicação de tecnologia do mundo. Revista PC Evoluindo do bem-sucedido serviço PCMagNet da CompuServe, tornou-se um dos primeiros e mais bem-sucedidos sites.
Como jornalista talentoso e orador experiente, bem versado em testes de produtos, avaliação e redação sobre questões de software, Miller tornou-se um comentarista líder na indústria de computadores. Ele tem sido palestrante e palestrante frequente em conferências do setor, apareceu em vários programas de rádio e TV de negócios para discutir questões tecnológicas e tem sido frequentemente citado nos principais jornais. Suas áreas especiais de especialização incluem a Internet e seus aplicativos, ferramentas de produtividade de desktop e o uso do PC em aplicativos de negócios. Antes de se inscrever Revista PCMiller era o editor-chefe. InfomundoEle ingressou como editor-chefe em 1985. InfomundoEle foi responsável por escrever análises comparativas para a revista e supervisionou o estabelecimento do centro de testes InfoWorld. Anteriormente, ele atuou como Diretor da Costa Oeste. computação populare editor sênior Projeto e construção de edifícios. Miller recebeu um diploma de bacharel em ciência da computação pelo Rensselaer Polytechnic Institute em Troy, Nova York, e um mestrado em jornalismo pela Medill School of Journalism da Northwestern University em Evanston, Illinois. Ele recebeu vários prêmios por redação e edição, incluindo a seleção para o Alumni Hall of Achievement da Medill.
Autor mais recente: Michael J. Miller
Leia a biografia completa



