Neste artigo detalhado, fornecemos análise de desempenho de GPU NVIDIA® H100 do mundo real para Western Digital OpenFlex™ Data24. Ao permitir caminhos de dados diretos entre a memória da GPU e o armazenamento, o OpenFlex Data24 reduz significativamente a latência e maximiza a largura de banda.
Este relatório é patrocinado pela Western Digital. Todas as visões e opiniões expressas neste relatório baseiam-se na nossa visão imparcial do(s) produto(s) em consideração.
A IA está na moda hoje em dia e, embora alguns hiperscaladores estejam criando soluções personalizadas para seus problemas de dados de IA, a Western Digital (WD) tem uma resposta para o resto de nós. O OpenFlex™ Data24™ da Western Digital oferece uma solução de armazenamento robusta e escalável para atender às demandas de alto rendimento de IA e outras cargas de trabalho aceleradas por GPU. Ao permitir caminhos de dados diretos entre a memória da GPU e o armazenamento, o OpenFlex Data24 reduz significativamente a latência. Ele também maximiza a largura de banda, garantindo o manuseio eficiente de dados e a utilização ideal da GPU para um processamento mais rápido e eficaz de conjuntos de dados em grande escala.
Ao aproveitar o NVMe-oF™, a Western Digital pode compartilhar armazenamento desagregado de alta velocidade em vários servidores, garantindo rápido acesso e transferência de dados. A integração perfeita do OpenFlex Data24 com GPUs de alto desempenho permite fornecer o imenso rendimento necessário para treinamento e inferência de IA, posicionando-o como um facilitador chave das operações de data center de próxima geração. Esses recursos tornam o OpenFlex Data24 uma ferramenta poderosa para qualquer organização que busca aproveitar todo o potencial da IA e outras cargas de trabalho computacionais avançadas.
Dados OpenFlex da Western Digital24 4000
A plataforma de armazenamento NVMe-oF OpenFlex Data24 série 4000 da Western Digital traz desempenho incomparável para ambientes de armazenamento compartilhado. Essa plataforma de alto desempenho amplia os recursos do flash NVMe™, fornecendo compartilhamento de baixa latência em uma malha Ethernet. A série Data24 4000 utiliza seis dispositivos RapidFlex™ A2000 Fabric Bridge da Western Digital para fornecer conectividade de rede perfeita usando até doze portas de 100 GbE. Essas interfaces suportam ambos RoCEv2 e protocolos TCP, fornecendo opções versáteis para transferência de dados.
O chassi foi projetado em um formato 2U, acomodando até 24 SSDs U.2 NVMe de porta dupla. Com suporte para PCIe® Gen4, esta plataforma foi projetada para utilizar totalmente o desempenho de cada SSD, mantendo alta largura de banda em todo o chassi. Os SSDs NVMe estão disponíveis em diversas capacidades e opções de resistência, incluindo os SSDs Ultrastar® DC SN655 com capacidade de até 15.36 TB para uma capacidade bruta total de 368 TB¹.
O design da plataforma elimina o excesso de assinaturas, garantindo acesso equilibrado que preserva o desempenho do NVMe. A série Data24 4000 também incorpora suporte a API RESTful para gerenciamento simplificado, melhorando a facilidade de uso e a integração em infraestruturas de TI existentes.
Alta disponibilidade e confiabilidade de classe empresarial são atributos críticos da série Data24 4000. Toques como módulos de E/S duplos e redundância de ventilador N+2 proporcionam tranquilidade para garantir operação contínua mesmo durante falhas imprevistas de componentes. Toda a plataforma, incluindo SSDs, tem garantia limitada de 5 anos.
Especificações principais do Western Digital OpenFlex Data24
Especificações do OpenFlex Data24 | |
---|---|
Capacidade máxima de armazenamento | 368TB |
Tensão de entrada | 120V - 240V |
PSU | Duplo 800 W |
Transferência de dados Taxa de | 12x 100 Gbps NVMe-oF |
Fator de Forma | 2U |
Temperatura operacional | 10 ° C a 35 ° C |
Peso | 18.25 kg / lb 40.2 |
Dimensões (W x L x H) | 491.9 mm x 628.65 mm x 85.5 mm / 19.37 pol. x 24.75 pol. x 3.37 pol. |
Consumo de energia (máx./típico) | 750W / ~550W |
Eficiência PSU | 80 Plus Titânio |
Slots de unidade | 24 |
Resfriamento | 4 ventiladores do sistema (N+2 suportados) |
Unidades de Rack (U) | 2U |
Profundidade necessária do rack | 1000 mm (39.4 pol.) |
Largura necessária do rack | 450mm (17.72 pol.) |
Testando os dados OpenFlex24
Para esticar as pernas do OpenFlex Data24, tivemos que reunir algumas peças importantes: NVIDIA GPUDirect™, NVIDIA IndeX® e impressionantes 5.9 TB de dados de Simulação de Tornado. Ao aproveitar o NVIDIA GPUDirect, possibilitamos a comunicação direta entre a memória da GPU e o OpenFlex Data24, reduzindo drasticamente a latência e maximizando o rendimento de dados. A utilização do IndeX da NVIDIA nos permitiu visualizar e interagir de forma mais eficiente com o enorme conjunto de dados de tornados, mostrando as capacidades de processamento em tempo real do sistema. Essa configuração forneceu um ambiente de teste perfeito para demonstrar a capacidade do OpenFlex Data24 de lidar com cargas de trabalho intensivas de IA e processamento de dados em grande escala com velocidade e eficiência notáveis.
NVIDIA GPU Direct
NVIDIA GPU Direct a tecnologia aumenta significativamente a eficiência da transferência de dados em ambientes de computação GPU de alto desempenho. Este conjunto de tecnologias otimiza a movimentação de dados entre GPUs e outros componentes do sistema. Ao reduzir a latência e a sobrecarga, o GPUDirect permite uma comunicação mais direta entre GPUs e periféricos, como adaptadores de rede, dispositivos de armazenamento e outras GPUs. Os processos tradicionais de transferência de dados envolvem o roteamento de dados através da CPU e da memória do sistema, criando gargalos que prejudicam o desempenho. O GPUDirect atenua esses gargalos, permitindo acesso direto à memória (DMA) à memória da GPU, ignorando a CPU e a memória do sistema, melhorando assim o rendimento geral.
De acordo com Harry Petty, gerente sênior de marketing técnico da NVIDIA:
“As tecnologias da NVIDIA oferecem baixa latência e rápida transferência de dados do armazenamento, otimizando o desempenho das cargas de trabalho de IA ao reduzir o tempo ocioso da GPU. Isso proporciona tempos de treinamento de modelo mais rápidos e resultados mais precisos, permitindo descobertas mais rápidas e fluxos de trabalho mais eficientes.”
GPUDirect compreende vários recursos vitais, incluindo GPUDirect RDMA, que facilita transferências diretas de dados entre GPU e adaptadores de rede compatíveis com RDMA. Esta comunicação direta é crucial para aplicações que exigem trocas rápidas de dados, como simulações científicas e análises de dados em grande escala. Ao permitir transferências de dados mais rápidas, o GPUDirect RDMA reduz a latência e aumenta a eficiência dos clusters de GPU. Além disso, o GPUDirect Storage integra GPUs de forma mais estreita com sistemas de armazenamento de alta velocidade, permitindo que aplicativos com uso intensivo de dados aproveitem a largura de banda máxima do armazenamento NVMe moderno. Essa integração acelera o acesso aos dados e reduz o tempo gasto aguardando o carregamento dos dados na memória da GPU, crucial para análises em tempo real e cargas de trabalho de aprendizado de máquina em grande escala.
Os recursos do GPUDirect são particularmente impactantes em ambientes onde várias GPUs trabalham em conjunto, como clusters de treinamento de aprendizagem profunda. Ao facilitar a comunicação direta entre GPUs, o GPUDirect otimiza o processamento paralelo e reduz significativamente a sobrecarga associada às transferências de dados entre GPUs. Este aprimoramento é particularmente benéfico no treinamento de redes neurais complexas, onde grandes volumes de dados devem ser trocados rapidamente entre múltiplas GPUs. Os ganhos de eficiência do GPUDirect também são evidentes em aplicações como simulações de dinâmica molecular e dinâmica de fluidos, onde as cargas de trabalho computacionais são distribuídas por diversas GPUs para obter resultados mais rápidos.
Índice NVIDIA
Índice NVIDIA é uma ferramenta avançada de visualização volumétrica projetada para lidar com conjuntos de dados massivos com alta fidelidade. O IndeX aproveita a aceleração da GPU para fornecer visualização interativa em tempo real de dados volumétricos 3D, tornando-o indispensável para indústrias como exploração de petróleo e gás, imagens médicas e pesquisa científica. As ferramentas de visualização tradicionais muitas vezes enfrentam dificuldades com o tamanho e a complexidade dos conjuntos de dados modernos, resultando em tempos de renderização mais lentos e em experiências de usuário menos interativas. O IndeX supera essas limitações ao utilizar a tecnologia de GPU da NVIDIA para fornecer renderização e processamento de dados de alto desempenho, garantindo que os usuários possam interagir com seus dados em tempo real.
Os recursos do IndeX são impulsionados por sua capacidade de aproveitar o poder de processamento paralelo das GPUs, permitindo gerenciar e renderizar dados volumétricos em grande escala com eficiência. Esta capacidade é valiosa em aplicações que exigem visualização de alta resolução, como interpretação sísmica e simulação de reservatórios no setor de petróleo e gás. Ao fornecer representações visuais detalhadas e precisas de estruturas subterrâneas, o IndeX ajuda os geocientistas a tomar decisões mais informadas. Na área médica, o IndeX facilita a visualização de estruturas anatômicas complexas a partir de modalidades de imagem como ressonância magnética e tomografia computadorizada, auxiliando no diagnóstico e no planejamento do tratamento.
A capacidade de renderização em tempo real do IndeX também é crucial para a pesquisa científica, onde grandes conjuntos de dados de simulações e experimentos precisam ser visualizados e analisados prontamente. Os pesquisadores podem manipular e explorar interativamente seus dados, permitindo testes e descobertas de hipóteses mais rápidos. A escalabilidade do IndeX garante que ele possa lidar com os volumes crescentes de dados gerados por simulações e instrumentos científicos avançados, fornecendo aos pesquisadores as ferramentas para visualizar e interpretar seus dados de forma eficaz. Ao integrar-se perfeitamente aos fluxos de trabalho existentes e ao oferecer suporte a vários formatos de dados, o IndeX aumenta a produtividade e acelera o ritmo de descoberta em diversas disciplinas.
Amarrando tudo junto
A integração da série Data24 4000 com a tecnologia NVIDIA GPUDirect melhora significativamente o desempenho de aplicativos com uso intensivo de GPU, simplificando as transferências de dados entre GPUs e armazenamento. GPUDirect facilita o acesso direto à memória, permitindo que a movimentação de dados contorne a CPU e a memória do sistema para reduzir a latência e aumentar o rendimento. Quando combinado com os recursos NVMe-oF de alto desempenho da série Data24 4000, o GPUDirect garante que as GPUs possam acessar rapidamente grandes conjuntos de dados armazenados nos SSDs NVMe.
Esta integração é particularmente benéfica em ambientes onde a troca de dados em alta velocidade entre GPUs e armazenamento é crucial, como aprendizagem profunda e simulações científicas. A baixa latência e a alta largura de banda da série Data24 4000, juntamente com os caminhos de dados diretos habilitados pelo GPUDirect, minimizam os tempos de transferência de dados e permitem uma utilização mais eficiente da GPU. Essa sinergia otimiza o desempenho de tarefas de processamento paralelo, onde múltiplas GPUs exigem acesso rápido e frequente a dados compartilhados.
Para este teste, o OpenFlex Data24 4000 e o servidor GPU são conectados por meio de um switch de 200 GbE usando o protocolo NVMe-oF RoCEv2 com MTUs correspondentes de 5000. O servidor GPU usa 3 RNICs Mellanox® CX7 com 2x 200 GbE por RNIC. O OpenFlex Data24 4000 está disponível com 12 portas 100GbE. Cada porta CX7 possui 2 endereços IP, permitindo que um único CX7 mapeie para quatro portas no Data24. Isso fornece conectividade a todas as 4 pistas PCIe em cada unidade de porta dupla. Os links de 6x 200 GbE equivalem ao potencial de largura de banda de links de 12x 100GbE para uma arquitetura de rede sem bloqueio.
Cada NVIDIA H100 é conectado por meio de um slot PCIe Gen5 x16, que teoricamente pode atingir 64 GB/s de largura de banda bidirecionalmente. Cada porta RNIC de 200 GbE e 100 GbE pode, teoricamente, atingir 25 GB/s e 12.5 GB/s, respectivamente. Uma consideração crítica de design é garantir uma arquitetura sem bloqueios. Isso requer que as unidades GPUs, RNICs e NVMe-oF sejam mapeadas fisicamente na mesma CPU, NUMA e switch PLX. Isso permite que a configuração aproveite ao máximo o GPUDirect. Como visto nesta implementação, uma configuração espelhada na segunda CPU, NUMA e switch PLX permitiria uma escala de computação previsível e uma duplicação teórica do desempenho.
Em clusters de treinamento de IA, a combinação de Data24 4000 e GPUDirect pode permitir tempos de treinamento mais rápidos, reduzindo os gargalos associados ao carregamento de dados. Os caminhos de dados eficientes garantem que as GPUs possam receber dados continuamente sem interrupção, mantendo altas velocidades de processamento e melhorando a eficiência geral do sistema. Essa configuração também é vantajosa para análises em tempo real e outras aplicações que exigem rápido acesso e processamento de dados, proporcionando um aumento significativo de desempenho para diversas cargas de trabalho computacionais.
Configuração do servidor NVIDIA Index
Para o teste NVIDIA IndeX, empregamos o Supermicro 521GE-TNRT equipado com backplane PCIe comutado, um par de NVIDIA H100s e três placas de rede NVIDIA ConnectX-7.
Principais especificações do Supermicro® 521GE-TNRT | |
---|---|
Modelo | Supermicro 521GE-TNRT |
Subcontratante | 2x Intel® Xeon® Platinum 8462Y+ |
Memória | 1TB DDR5 |
GPU | 2x NVIDIA H100 PCIe |
interface de rede | 3 placas de rede NVIDIA ConnectX-7 |
Teste Sintético GDSIO
A ferramenta de benchmarking usada para essa finalidade é o GDSIO, um utilitário proprietário especializado da NVIDIA projetado para medir o desempenho de armazenamento em ambientes de armazenamento direto de GPU (GDS). Analisamos algumas configurações para esta rodada de testes: uma única GPU com 12 unidades e 24 unidades, bem como duas GPUs com 24 unidades.
O desempenho do Western Digital OpenFlex Data24 no teste de desempenho GDSIO, emparelhado com GPUs NVIDIA H100, revela insights sobre a potência bruta das unidades. Quando configurado com 12 unidades e uma única GPU, o sistema alcançou uma largura de banda de gravação de 44.14 GB/s. Aumentar a contagem de unidades para 24 usando uma GPU mostrou uma melhoria modesta, com o desempenho de gravação atingindo 54.15 GB/s. A introdução de uma segunda GPU na configuração de 24 unidades resultou em um aumento substancial, elevando a largura de banda de gravação para 87.91 GB/s.
O desempenho de leitura segue uma tendência semelhante. A configuração de 12 unidades e uma GPU rendeu uma largura de banda de leitura de 53.47 GB/s. Expandir para 24 unidades com uma GPU aumenta ligeiramente para 54.75 GB/s. No entanto, a melhoria mais dramática veio com a configuração de GPU dupla, onde o sistema alcançou uma impressionante largura de banda de leitura de 101.14 GB/s. Esses resultados ressaltam a capacidade do OpenFlex Data24 de escalar de forma previsível com um número maior de drives.
A adição de GPUs desempenha um papel crucial na maximização do desempenho. A configuração com 24 drives e duas GPUs surgiu como a configuração ideal, oferecendo a maior largura de banda para operações de leitura e gravação. Este teste ressalta a importância da aceleração da GPU para aproveitar todo o potencial da estrutura GDSIO. O OpenFlex Data24, quando combinado com GPUs NVIDIA H100, demonstra desempenho excepcional, tornando-o uma solução robusta para ambientes de armazenamento exigentes.
Para cargas de trabalho de IA, onde a rápida ingestão e processamento de dados são fundamentais, o desempenho observado com o OpenFlex Data24 pode se traduzir em reduções significativas nos tempos de treinamento e no manuseio mais eficiente de grandes conjuntos de dados. A capacidade de mover dados rapidamente do armazenamento para a memória da GPU garante que os recursos computacionais de GPUs poderosas sejam totalmente aproveitados, facilitando o treinamento e a inferência de modelos mais rápidos e eficientes.
Usando o OpenFlex Data24 para alimentar os tornados do H100
Os pesquisadores do clima há muito estudam as tempestades supercelulares, os fenômenos atmosféricos responsáveis pelos tornados mais violentos e perigosos do mundo. Essas tempestades são dinâmicas e complexas, tornando simulações precisas demoradas e com uso intensivo de dados. Explorar esses dados tem sido um processo lento e complicado, muitas vezes levando horas para renderizar novas visualizações.
O uso de GPUs NVIDIA e NVIDIA IndeX revolucionou esse campo. Os cientistas agora podem realizar visualizações volumétricas em tempo real. A simulação que executamos no sistema Supermicro com H100s (alimentada com dados pelo OpenFlex Data24) mostra uma tempestade em Oklahoma em 2011 simulada pelo professor Leigh Orf. Esta simulação, derivada matematicamente das condições iniciais imediatamente antes da formação do tornado, inclui 250 mil milhões de pontos de grelha, cada um com mais de uma dúzia de atributos como chuva, granizo, pressão e velocidade do vento. Esta visualização detalhada, que mostra 6000 etapas de simulação, fornece uma visão sem precedentes da dinâmica do tornado.
A chave para esta simulação é o NanoVDB, uma estrutura de dados compacta de volume esparso que reduz o tamanho dos conjuntos de dados e o consumo de memória, mapeando os dados diretamente na memória da GPU. Juntamente com a tecnologia GPUDirect Storage e OpenFlex Data24, alcançamos até 89 GB/s e podemos visualizar resultados em mais de 13 quadros por segundo. Isso se aproxima de cerca de 5.9 TB de conjunto de dados ingerido a cada 66 segundos. Essa combinação permite navegação interativa, ajustes de parâmetros em tempo real e análise fácil da simulação.
Com o GPUDirect desativado (e, portanto, os dados agora atravessando o complexo da CPU), a largura de banda é reduzida para cerca de 15 GB/s e a taxa de quadros cai significativamente para 4 quadros por segundo.
A velocidade é crucial, mas a qualidade fotorrealística também é essencial para validar a precisão das simulações. Se a simulação e a realidade não se alinharem, os modelos deverão ser corrigidos. NVIDIA Iray, um path tracer baseado em GPU que renderiza transporte de luz fisicamente correto, é usado junto com dados de volume NVIDIA IndeX para potencializar essa visualização. O funil do tornado, o contato com o solo e elementos detalhados como a relação nuvem-água e chuva, representados por poros azul-acinzentados, são claramente visíveis.
Conclusão
Os benefícios de desempenho, tempo e custo que uma arquitetura bem configurada e sem bloqueios pode oferecer às cargas de trabalho aceleradas por GPU são bem demonstrados neste projeto. Simplificando, levar as GPUs ao máximo rendimento ou capacidade de processamento gera resultados mais eficientes e retorno do investimento.
A arquitetura da Western Digital suporta Open Composable Infrastructure (OCI), e a plataforma OpenFlex Data24 4000 aproveita essa abordagem OCI desagregando o armazenamento de dados usando NVMe-over-Fabrics (NVMe-oF). Essa dissociação dos recursos de armazenamento do servidor GPU não apenas ajuda a liberar recursos dos servidores (liberando esses recursos das atualizações tradicionais), mas, ao fazer isso, também permite um ajuste fino do mapeamento do NVMe Drive para GPUs. Essa correspondência precisa da unidade com os requisitos da GPU permite que a capacidade, o desempenho e a capacidade de dados da GPU sejam abordadas de perto, o que, por sua vez, oferece a escala e a flexibilidade previsíveis necessárias para esses recursos.
Como os dados não ficam mais isolados, eles se tornam um recurso de armazenamento em rede acessível, compartilhável entre vários servidores GPU conforme necessário, aumentando ainda mais a flexibilidade.
O Western Digital OpenFlex Data24, combinado com a tecnologia NVIDIA GPUDirect, demonstra uma capacidade formidável no tratamento de IA e outras cargas de trabalho aceleradas por GPU. Ao permitir caminhos de dados diretos entre a memória GPU e o armazenamento NVMe, o Data24 reduz significativamente a latência e maximiza a largura de banda, garantindo o tratamento eficiente de dados e a utilização ideal da GPU. Essa integração permite um processamento mais rápido e eficaz de conjuntos de dados em grande escala, tornando o Data24 um ativo inestimável em ambientes modernos com uso intensivo de dados.
Nossos testes no mundo real, envolvendo um conjunto substancial de dados de simulação de tornado, demonstraram os notáveis ganhos de desempenho alcançados por meio desta configuração. A capacidade do OpenFlex Data24 de fornecer transferências de dados de alto rendimento e baixa latência, juntamente com os recursos de visualização em tempo real do NVIDIA IndeX, ressalta seu potencial em aplicações exigentes, como treinamento de IA, simulações científicas e análises em tempo real.
A utilização da série Data24 e da tecnologia GPUDirect para clusters de treinamento de IA pode reduzir significativamente o tempo de treinamento, garantindo um fluxo de dados contínuo do armazenamento para as GPUs. Essa configuração minimiza gargalos e melhora a eficiência geral do sistema, tornando-a um componente crítico na busca de modelos de IA mais rápidos e precisos.
Além da IA, os benefícios do OpenFlex Data24 se estendem a outras cargas de trabalho aceleradas por GPU, incluindo computação de alto desempenho e análise de dados em tempo real. A latência reduzida e o aumento do rendimento permitidos por esta plataforma garantem que as aplicações que exigem rápido acesso e processamento de dados possam operar com desempenho máximo, fornecendo resultados oportunos e precisos.
Veja esta demonstração em ação de 6 a 8 de agosto de 2024, no estande nº 2024 da FMS 607.
Plataformas OpenFlex da Western Digital
[1] Um terabyte (TB) é igual a um trilhão de bytes. A capacidade real do usuário pode ser menor devido ao ambiente operacional.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed