Início ESPECIAIS Por que a IA remodelará o design do sistema de computador e...

Por que a IA remodelará o design do sistema de computador e tudo mais

30
0

Nos últimos anos, a IA dominou todas as discussões sobre tendências tecnológicas. Claro, os PCs são mais rápidos e duram mais, os telefones podem tirar fotos atraentes e as TVs estão melhores do que nunca. No entanto, essas mudanças foram em sua maioria graduais. A maior mudança é o surgimento de modelos de linguagem em grande escala, chatbots e, embora ainda na sua infância, agentes de IA.

Isso teve um impacto significativo no design do sistema. Os PCs e telefones modernos agora usam processadores neurais (NPUs) para executar modelos de IA localmente. Mas as mudanças nos servidores e nos data centers que os administram foram muito mais dramáticas. Embora provavelmente continuemos a precisar de servidores tradicionais baseados em CPU por muito tempo, cada novo aplicativo requer um grande número de unidades de processamento gráfico (GPUs), mesmo que elas não façam gráficos.

É claro que isso levou ao surgimento de uma variedade de chips novos e aprimorados para executar esses aplicativos. A Nvidia, que iniciou a tendência de uso mais geral de GPUs e onde grande parte do treinamento crítico de IA ainda acontece em chips, lança novos chips projetados para data centers todos os anos. A rival de longa data AMD entrou na briga, especialmente com entradas confiáveis ​​em sua linha Instinct no ano passado. E todos os grandes fornecedores de computação em nuvem (hyperscalers) parecem ter chips proprietários dedicados à execução de seus próprios aplicativos de IA, a maioria dos quais focados em inferência, incluindo TPU do Google, Trainium da Amazon e Maia da Microsoft. Todos eles lançaram novas versões nos últimos meses.

Isso deixou para trás as arquiteturas tradicionais de CPU e exigiu o redesenho de aplicativos, sistemas e data centers de IA. Na verdade, há boas razões para pensar que a procura projectada para novos centros de dados equipados com estes chips será tão grande que necessitarão da sua própria fonte de energia. Os hiperscaladores até falaram sobre construir ou reiniciar usinas nucleares.

Uma coisa que me chamou a atenção recentemente é como isso impactou o design de sistemas em grandes data centers. Em vez de um grande provedor de nuvem ou algumas grandes empresas de informática projetarem o sistema, os fabricantes de GPU (primeira Nvidia, agora acompanhada pela AMD) não apenas projetam novos chips e placas, mas na verdade possuem o sistema inteiro, incluindo todos os componentes necessários para construir um rack de servidor.

Tudo isso ficou muito claro na CES 2026. O que mais me chamou a atenção não foi o segmento de eletrônicos de consumo que originalmente deu nome ao programa, mas os enormes servidores para data centers de grande escala, incluindo o Helios da AMD equipado com as mais recentes placas gráficas Instinct e Vera Rubin da Nvidia com sua arquitetura de próxima geração. O que me chama a atenção é o quão focadas ambas as empresas estão na sua actual abordagem de sistemas, prometendo não só um melhor desempenho, mas também uma eficiência muito maior. Esta pode ser a mudança mais significativa que vimos no design de computadores nos últimos anos.

Vera Rubin da NVIDIA

CEO da NVIDIA, Jensen Huang (Foto: Patrick T. Fallon/AFP via Getty Images)

Na CES, o CEO da Nvidia, Jensen Huang, concentrou-se na “AI Factory” de Vera Rubin, sua plataforma de servidor de data center de próxima geração. Este é um projeto de sistema completo que inclui uma GPU Rubin e uma CPU baseada em Vera ARM, bem como quatro outros chips: um switch NVLink 6 para rede escalável (ou seja, rede intra-rack), fotônica Spectrum-X Ethernet para rede escalável (ou seja, rede entre rack), uma placa de interface de rede CX9 e uma unidade de processamento de dados BlueField 4. O Vera Rubin NVL72 completo tem 72 GPUs, que a Nvidia diz oferecer 50 petaflops em FP4 (inferência de precisão de 4 bits) e 36 CPUs. Huang disse que o sistema está atualmente em produção.

Nvidia Vera Rubin

NVIDIA Vera Rubin (Crédito: Michael J. Miller)

“A quantidade de computação necessária para a IA está disparando”, explica Huang, observando que os melhores modelos estão aumentando o número de parâmetros por um fator de 10 por ano, e as extensões de tempo de teste, ou “inferência”, estão usando até cinco vezes o número de tokens por ano. A Nvidia diz que ao se concentrar no projeto conjunto de todos os seis chips do sistema, a empresa conseguiu uma redução de 10x no custo de inferência por token em comparação com a geração anterior de servidores agora baseados em GPUs Blackwell. Em uma sessão subsequente de perguntas e respostas, Huang disse que haveria um aumento de cinco vezes no rendimento por watt.

Lisa Su, presidente e CEO da Advanced Micro Devices Inc. (AMD), apresenta o AMD EPYC.

Lisa Su tem uma CPU AMD EPYC ‘Veneza’ (Crédito: Bridget Bennett/Bloomberg via Getty Images)

A CEO da AMD, Lisa Su, foi igualmente poderosa em sua palestra na CES. Ela observou que a IA passará de 1 zetaflop (operações de ponto flutuante) em 2022 para mais de 100 zetaflops em 2025. “Não temos poder de computação suficiente para fazer tudo o que podemos”.



ícone do boletim informativo

Receba as melhores histórias direto na sua caixa de entrada!

Sua dose diária das melhores notícias de tecnologia


Novidades Imagens do boletim informativo

Junte-se a nós O que há de novo Este boletim informativo traz para você as últimas notícias, os melhores novos produtos e conselhos de especialistas dos editores da Garon.

Ao clicar em inscrever-se, você confirma que tem 16 anos ou mais e concorda com nossos Termos de Uso e Política de Privacidade.

Obrigado por se inscrever!

Sua assinatura foi confirmada. Observe sua caixa de entrada com atenção!

“Para permitir a IA em todos os lugares, a capacidade de computação mundial precisará aumentar 100 vezes nos próximos anos, para mais de 10 yotaFLOPs (três bilhões de operações de ponto flutuante) nos próximos cinco anos”, disse ela. Ele observou que isso seria 10.000 vezes mais computação do que em 2022 e seria um salto maior do que qualquer coisa que vimos até agora na história da computação.

AMD Hélios

AMD Helios (Crédito: Michael J. Miller)

A solução da AMD para isso é uma nova versão de sua GPU Instinct chamada MI455X e seu próprio produto de nível de sistema chamado Helios. Inclui uma nova CPU Epyc, codinome Venice, junto com o acelerador Instinct MI455 com memória HBM4 ultrarrápida e duas unidades de processamento de dados (DPUs) Pensando – a DPU Salian existente e uma nova DPU chamada Vulcano que oferece UltraEthernet mais rápida para computação em expansão. Isso permite 72 GPUs por rack, o que, segundo Su, gerará 2,9 exaflops de computação de IA com 4.600 núcleos de CPU, 18.000 unidades de computação de GPU e 31 TB de memória HBM4. Isso está programado para ser lançado ainda este ano. Os chips do próximo ano, a série MI500, serão 10 vezes mais rápidos, e Su promete que a combinação proporcionará uma melhoria de 1.000 vezes no desempenho da IA ​​ao longo de quatro anos.

Por que o foco no sistema é importante

Uma melhoria de 1.000x é incrível. Isto é muito mais rápido do que o esperado devido à extensão da Lei de Moore. Na verdade, está desacelerando de qualquer maneira. Isto se deve a duas melhorias no nível do chip, incluindo conexões de memória mais rápidas. E no nível do sistema, onde todas as diferentes partes do sistema são projetadas para funcionarem juntas. É claro que os designers de software de IA também estão focados em tornar os sistemas mais eficientes.

Todas essas melhorias são críticas porque, se o uso de IA e de agentes continuar a crescer, esses aplicativos exigirão novos sistemas e novos data centers para serem executados. E à medida que os custos diminuem, seria de esperar que a procura só aumentasse. No entanto, há apenas um número limitado de data centers que podem ser construídos rapidamente, portanto, torná-los mais eficientes – obtendo mais transações de cada servidor e usando menos energia por transação – é fundamental.

Todos os grandes players de IA e hiperescaladores prometeram novos data centers, mas todos eles são limitados pela quantidade de energia disponível. A nova geração de energia não está crescendo tão rapidamente quanto a demanda dos data centers, por isso é importante focar na melhoria da eficiência energética.

IA híbrida

Outra grande tendência que notei na CES foi o crescente interesse em “IA híbrida”. AMD, Nvidia, Intel, Lenovo e Qualcomm usaram a frase em palestras e eventos de imprensa. Mas o que exatamente isso significa varia.

suporte lenovo

Rack Lenovo (Crédito: Michael J. Miller)

A NVIDIA falou sobre três tipos de IA: treinamento, inferência e simulação. AMD, Intel e Lenovo falaram sobre servidores de data center e servidores na “borda”, fornecendo inferência. AMD, Intel e Qualcomm falaram sobre a execução de modelos locais de IA em PCs, e a Microsoft também tem falado sobre isso nos últimos meses. E a Qualcomm e a Lenovo (incluindo a família Motorola) falaram sobre a execução de IA em telefones.

O foco na IA em todos os lugares deixa claro o quanto ela passou a dominar as discussões sobre tecnologia. Todos os produtos eletrônicos de consumo que vi no programa pareciam ter algum tipo de ângulo de IA, mas a maioria eram novas versões de produtos lançados há anos (como processamento de imagem aprimorado em TVs) ou apenas outro nome para software.

No entanto, não há dúvida de que os dispositivos, as aplicações que executamos, o software pessoal tradicional e as aplicações empresariais estão todos a passar por grandes mudanças, com ênfase na IA. Muita coisa já mudou, mas mudanças maiores ainda estão por vir.

Introdução aos especialistas



Source link