Home EmpreendimentoAI A rede NVIDIA Spectrum-X capacita o supercomputador Colossus da xAI

A rede NVIDIA Spectrum-X capacita o supercomputador Colossus da xAI

by Haroldo Fritts

A NVIDIA revelou que o supercomputador Colossus da xAI, ostentando notáveis ​​100,000 GPUs NVIDIA Hopper Tensor Core, agora está totalmente operacional em Memphis, Tennessee.

A NVIDIA revelou que o supercomputador Colossus da xAI, ostentando notáveis ​​100,000 GPUs NVIDIA Hopper Tensor Core, está agora totalmente operacional em Memphis, TN. Essa conquista foi possível por meio de Spectrum-X™ da NVIDIA Plataforma de rede Ethernet, projetada para fornecer desempenho robusto para data centers de IA multilocatários e hiperescala. O Spectrum-X usa Ethernet baseada em padrões com rede RDMA para garantir comunicação eficiente e manuseio de dados otimizado dentro desses ambientes de grande escala.

Interruptor de supercomputador Colossus

Como o maior supercomputador de IA do mundo, o Colossus atualmente alimenta o treinamento da família de modelos de linguagem Grok da xAI, que inclui funcionalidades de chatbot para assinantes X Premium. A xAI tem planos adicionais para expandir o Colossus para 200,000 GPUs NVIDIA Hopper, reforçando seu status como um recurso de computação de IA de primeira linha. A xAI e a NVIDIA construíram esta instalação e a infraestrutura de computação avançada em um recorde de 122 dias, enquanto projetos semelhantes normalmente levam vários meses a anos. A Colossus começou as operações de treinamento em 19 dias após a instalação inicial do rack.

O Colossus está alcançando desempenho de rede excepcional ao treinar modelos de larga escala, beneficiando-se do controle de congestionamento e tratamento de fluxo do Spectrum-X. Isso resultou no sistema experimentando degradação de latência zero ou perda de pacotes devido a colisões de fluxo e mantendo uma taxa de transferência de dados de 95%, uma melhoria significativa em relação à Ethernet tradicional, que normalmente vê apenas 60% de transferência de dados e colisões de fluxo frequentes.

O avanço da implementação do Spectrum-X da NVIDIA está em sua abordagem para lidar com o congestionamento de rede neste enorme cluster de GPU. Redes Ethernet tradicionais lutam com o problema de “incast” quando milhares de GPUs se comunicam simultaneamente, levando a quedas de pacotes e degradação significativa do desempenho. Enquanto o InfiniBand tradicionalmente resolveu isso com seu Priority Flow Control (PFC) integrado e gerenciamento de congestionamento em nível de hardware, o Spectrum-X obtém resultados semelhantes usando o RoCE v2 com mecanismos de controle de congestionamento aprimorados. Isso permite que o xAI mantenha características de desempenho semelhantes ao InfiniBand enquanto aproveita os benefícios de custo e a flexibilidade da infraestrutura Ethernet padrão.

Os recursos de roteamento adaptável e Direct Data Placement do Spectrum-X criam uma malha de rede resiliente que pode lidar com os padrões de tráfego leste-oeste massivos típicos em cargas de trabalho de treinamento de IA distribuída. O resultado é um sistema que mantém baixa latência consistente e alto rendimento, mesmo quando todas as 100,000 GPUs participam ativamente de operações coletivas.

Gilad Shainer, vice-presidente sênior de redes da NVIDIA, enfatizou que “a IA é de missão crítica” e requer uma combinação de desempenho, segurança, escalabilidade e eficiência de custos. Ele destacou como a plataforma Spectrum-X da NVIDIA permite que empresas como a xAI acelerem o processamento, a análise e a execução de cargas de trabalho de IA, resultando em desenvolvimento e implantação mais rápidos de soluções de IA.

Um porta-voz da xAI reconheceu as GPUs Hopper e a tecnologia Spectrum-X da NVIDIA, citando a escala e o desempenho do sistema como essenciais para permitir uma “fábrica” de IA otimizada com base em padrões Ethernet.

Central para o Spectrum-X é o switch Ethernet Spectrum SN5600, que suporta velocidades de até 800 Gb/s com o ASIC do switch Spectrum-4. A xAI estrategicamente emparelhou este switch com os SuperNICs BlueField-3® da NVIDIA, alcançando níveis de desempenho anteriormente exclusivos do InfiniBand. A rede Ethernet Spectrum-X introduz recursos como roteamento adaptável com Direct Data Placement, controle de congestionamento sofisticado e melhor visibilidade da estrutura de IA e isolamento de desempenho — atendendo aos requisitos exigentes de ambientes de IA multilocatários e implantações de IA de nível empresarial.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed