Home EmpreendimentoAI CoreWeave revela o primeiro sistema Dell XE9712 GB200 NVL-72

CoreWeave revela o primeiro sistema Dell XE9712 GB200 NVL-72

by Divyansh Jain

A CoreWeave revelou seu primeiro sistema Dell XE9712 GB200 NVL-72 – completo com insights de desempenho!

A CoreWeave implementou o mais recente sistema GB200 NVL-72 com os novos servidores Dell XE9712. O sistema foi exibido em uma demonstração ao vivo em um data center de última geração da Switch, que destacou seu desempenho inovador e infraestrutura de resfriamento avançada.

Dell XE9712 GB200 NVL-72

O sistema GB200 NVL-72 da CoreWeave, alojado na Evo Chamber de Rob Roy, foi projetado para lidar com as cargas de trabalho computacionais mais exigentes. A demonstração ao vivo começou com o NCCL All-Reduce Test, um benchmark que demonstra a largura de banda ultra-alta e a baixa latência da interconectividade Nvidia NVLink nas 72 GPUs do rack. O teste garante uma comunicação perfeita entre as GPUs.

BCom base nisso, o GPU Blaze Test ilustrou o poder computacional bruto do sistema. As GPUs lidaram com cargas de trabalho complexas de multiplicação de matrizes, simulando operações usadas em treinamento de IA, simulações científicas e processamento avançado de dados.

Treinamento ao vivo com o CoreWeave's Sunk

O GB200 NVL-72 também foi testado com uma execução de treinamento ao vivo usando Slurm no Kubernetes (Sunk), treinando o Megatron Model. A sessão de treinamento validou o rack com uma carga de trabalho real e demonstrou a carga resultante na infraestrutura de resfriamento e energia.

Conforme a atividade da GPU aumentava, a Cooling Distribution Unit (CDU) no rack ajustava dinamicamente a saída de resfriamento para manter temperaturas de hardware ideais. Dados em tempo real da CDU ilustravam como as temperaturas de retorno de fluido aumentavam com as cargas de trabalho da GPU, garantindo um gerenciamento térmico eficiente sem comprometer o desempenho.

O painel de energia do GB200 NVL-72 forneceu uma visão geral contínua dos requisitos de energia do sistema, demonstrando sua eficiência e transparência no gerenciamento de energia.

Câmara Evo de Rob Roy

O NVL72 está alojado na Evo Chamber da Rob Roy, que fornece impressionantes 1 MW de potência e capacidade de resfriamento por rack. Esse avanço na infraestrutura combina 250 kW de resfriamento a ar com 750 kW de capacidade de resfriamento líquido direto no chip, garantindo desempenho ideal para as cargas de trabalho de IA e HPC mais exigentes. O design sofisticado da câmara mantém o uso eficiente de energia e o gerenciamento térmico, ao mesmo tempo em que oferece suporte aos requisitos de computação de última geração.

Conclusão

A CoreWeave é uma líder clara do setor quando se trata de provar infraestrutura de IA como um serviço. Grande parte do seu sucesso se deve à sua capacidade de integrar a infraestrutura de IA mais recente mais rápido do que outras nuvens. Os novos sistemas Dell GB200 NVL-72 representam uma nova era na computação de alto desempenho. Eles combinam desempenho de GPU de ponta, soluções avançadas de resfriamento e eficiência energética para atender às demandas de IA, pesquisa científica e aplicativos com uso intensivo de dados — uma grande vitória para seus clientes que estão executando cargas de trabalho de IA em escala. 

CoreWeaveGenericName

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed