Home Empreendimento Aprimorando tecidos de armazenamento de IA com NVIDIA Spectrum-X

Aprimorando tecidos de armazenamento de IA com NVIDIA Spectrum-X

by Haroldo Fritts

O NVIDIA Spectrum-X inclui roteamento adaptável para conter o fluxo de colisões e otimizar a utilização da largura de banda.

As fábricas de IA exigem mais do que tecidos de computação de alto desempenho para operar com eficiência. Enquanto a rede Leste-Oeste desempenha um papel crítico na conexão de GPUs, os tecidos de armazenamento — responsáveis ​​por vincular matrizes de armazenamento de alta velocidade — são igualmente essenciais. O desempenho do armazenamento impacta significativamente vários estágios do ciclo de vida da IA, incluindo técnicas de verificação de treinamento e inferência, como geração aumentada de recuperação (RAG). Para atender a essas demandas, a NVIDIA e seu ecossistema de armazenamento estenderam a plataforma de rede NVIDIA Spectrum-X para aprimorar o desempenho do tecido de armazenamento, acelerando o tempo para insights de IA.

Compreendendo colisões de rede em clusters de IA 

Colisões de rede ocorrem quando vários pacotes de dados tentam atravessar o mesmo caminho de rede simultaneamente, resultando em interferência, atrasos e, ocasionalmente, a necessidade de retransmissão. Em clusters de IA de larga escala, essas colisões são mais prováveis ​​quando as GPUs estão totalmente carregadas ou com tráfego pesado de operações intensivas em dados.

À medida que as GPUs processam computações complexas simultaneamente, os recursos de rede podem ficar saturados, levando a gargalos de comunicação. O Spectrum-X foi projetado para combater esses problemas redirecionando o tráfego de forma automática e dinâmica e gerenciando o congestionamento, garantindo que os dados críticos fluam ininterruptamente sem a necessidade de implementações como o Enhanced ECMP da Meta descrito no Artigo LLAMA 3.

Otimizando o desempenho do armazenamento com o Spectrum-X

O NVIDIA Spectrum-X apresenta recursos de roteamento adaptáveis ​​que mitigam colisões de fluxo e otimizam a utilização da largura de banda. Comparado ao RoCE v2, o protocolo de rede Ethernet amplamente usado em malhas de computação e armazenamento de IA, o Spectrum-X atinge desempenho de armazenamento superior. Os testes demonstram uma melhoria de até 48% na largura de banda de leitura e um aumento de 41% na largura de banda de gravação. Esses avanços se traduzem em execução mais rápida de cargas de trabalho de IA, reduzindo os tempos de conclusão de tarefas de treinamento e minimizando a latência entre tokens para tarefas de inferência.

À medida que as cargas de trabalho de IA aumentam em complexidade, as soluções de armazenamento devem evoluir de acordo. Os principais provedores de armazenamento, incluindo DDN, VAST Data e WEKA, fizeram parceria com a NVIDIA para integrar o Spectrum-X em suas soluções de armazenamento. Essa colaboração permite que as malhas de armazenamento de IA aproveitem recursos de rede de ponta, aprimorando o desempenho e a escalabilidade.

O supercomputador Israel-1: validando o impacto do Spectrum-X

A NVIDIA construiu o supercomputador de IA generativa Israel-1 como um banco de testes para otimizar o desempenho do Spectrum-X em cenários do mundo real. A equipe do Israel-1 conduziu um benchmarking extensivo para avaliar o impacto do Spectrum-X no desempenho da rede de armazenamento. Usando o benchmark Flexible I/O Tester (FIO), eles compararam uma configuração de rede RoCE v2 padrão com o roteamento adaptável e o controle de congestionamento do Spectrum-X habilitados.

Os testes abrangeram configurações variando de 40 a 800 GPUs, demonstrando consistentemente desempenho superior com o Spectrum-X. As melhorias na largura de banda de leitura variaram de 20% a 48%, enquanto a largura de banda de gravação viu ganhos entre 9% e 41%. Esses resultados se alinham estreitamente com as melhorias de desempenho observadas em soluções de ecossistema de parceiros, validando ainda mais a eficácia da tecnologia em tecidos de armazenamento de IA.

O papel das redes de armazenamento no desempenho da IA

A eficiência da rede de armazenamento é crítica para as operações de IA. O treinamento do modelo geralmente dura dias, semanas ou até meses, necessitando de checkpoint para evitar perda de dados devido a uma falha do sistema. Com modelos de IA em larga escala atingindo estados de checkpoint em escala de terabyte, o gerenciamento eficiente da rede de armazenamento garante continuidade de treinamento perfeita.

As cargas de trabalho de inferência baseadas em RAG enfatizam ainda mais a importância de estruturas de armazenamento de alto desempenho. Ao combinar um LLM com uma base de conhecimento dinâmica, o RAG aprimora a precisão da resposta sem exigir retreinamento do modelo. Normalmente armazenadas em grandes bancos de dados vetoriais, essas bases de conhecimento necessitam de acesso de armazenamento de baixa latência para manter o desempenho de inferência ideal, particularmente em ambientes de IA generativa multilocatários que lidam com altos volumes de consulta.

Aplicando roteamento adaptativo e controle de congestionamento ao armazenamento

O Spectrum-X apresenta inovações importantes de rede Ethernet adaptadas do InfiniBand para melhorar o desempenho da estrutura de armazenamento:

  • Roteamento Adaptativo: O Spectrum-X equilibra dinamicamente o tráfego de rede para evitar colisões de fluxo de elefantes durante operações de checkpoint e de uso intensivo de dados. Os switches Ethernet Spectrum-4 analisam dados de congestionamento em tempo real, selecionando o caminho menos congestionado para cada pacote. Diferentemente do Ethernet legado, onde pacotes fora de ordem exigem retransmissão, o Spectrum-X utiliza SuperNICs e DPUs para reordenar pacotes no destino, garantindo operação contínua e maior utilização efetiva da largura de banda.
  • Controle de congestão: Ponto de verificação e outras operações de armazenamento de IA frequentemente resultam em congestionamento de muitos para um, onde vários clientes tentam gravar em um único nó de armazenamento. O Spectrum-X atenua isso regulando as taxas de injeção de dados usando telemetria baseada em hardware, prevenindo pontos de congestionamento que podem degradar o desempenho da rede.

Garantindo resiliência em estruturas de armazenamento de IA

Fábricas de IA em larga escala incorporam uma rede extensa de switches, cabos e transceptores, tornando a resiliência um fator crítico na manutenção do desempenho. O Spectrum-X emprega roteamento adaptativo global para redirecionar rapidamente o tráfego durante falhas de link, minimizando interrupções e preservando a utilização ideal da malha de armazenamento.

Integração perfeita com o NVIDIA AI Stack

Além das inovações de hardware da Spectrum-X, a NVIDIA oferece soluções de software para acelerar fluxos de trabalho de armazenamento de IA. Elas incluem:

  • NVIDIA Ar: Uma ferramenta de simulação baseada em nuvem para modelar switches, SuperNICs e armazenamento, simplificando a implantação e as operações.
  • NVIDIA Cumulus Linux: Um sistema operacional de rede com automação integrada e suporte de API para gerenciamento eficiente em escala.
  • Nvidia DOCA: Um SDK para SuperNICs e DPUs, proporcionando melhor programabilidade e desempenho de armazenamento.
  • NVIDIA NetQ: Uma ferramenta de validação de rede em tempo real que se integra à telemetria do switch para melhor visibilidade e diagnóstico.
  • NVIDIA GPU Direct Storage: Uma tecnologia de transferência direta de dados que otimiza os caminhos de armazenamento para memória de GPU para melhorar o rendimento de dados.

Ao integrar o Spectrum-X em redes de armazenamento, a NVIDIA e seus parceiros estão redefinindo o desempenho da infraestrutura de IA. A combinação de rede adaptável, controle de congestionamento e otimização de software garante que as fábricas de IA possam escalar com eficiência, fornecendo insights mais rápidos e eficiência operacional aprimorada.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed