Inicio Empresa Mejora de las estructuras de almacenamiento de IA con NVIDIA Spectrum-X

Mejora de las estructuras de almacenamiento de IA con NVIDIA Spectrum-X

by harold fritts

NVIDIA Spectrum-X incluye enrutamiento adaptativo para detener el flujo de colisiones y optimizar la utilización del ancho de banda.

Las fábricas de IA requieren más que estructuras de cómputo de alto rendimiento para funcionar de manera eficiente. Si bien las redes Este-Oeste desempeñan un papel fundamental en la conexión de las GPU, las estructuras de almacenamiento (responsables de vincular las matrices de almacenamiento de alta velocidad) son igualmente esenciales. El rendimiento del almacenamiento afecta significativamente varias etapas del ciclo de vida de la IA, incluidos los puntos de control de entrenamiento y las técnicas de inferencia como la generación aumentada por recuperación (RAG). Para abordar estas demandas, NVIDIA y su ecosistema de almacenamiento han ampliado la plataforma de redes NVIDIA Spectrum-X para mejorar el rendimiento de la estructura de almacenamiento, lo que acelera el tiempo de obtención de información de IA.

Comprender las colisiones de red en los clústeres de IA 

Las colisiones de red ocurren cuando varios paquetes de datos intentan atravesar la misma ruta de red simultáneamente, lo que genera interferencias, demoras y, ocasionalmente, la necesidad de retransmisión. En clústeres de IA a gran escala, estas colisiones son más probables cuando las GPU están completamente cargadas o hay mucho tráfico de operaciones con uso intensivo de datos.

A medida que las GPU procesan cálculos complejos simultáneamente, los recursos de la red pueden saturarse, lo que genera cuellos de botella en las comunicaciones. Spectrum-X está diseñado para contrarrestar estos problemas redirigiendo el tráfico de forma automática y dinámica y gestionando la congestión, lo que garantiza que los flujos de datos críticos no se interrumpan sin necesidad de implementaciones como el ECMP mejorado de Meta que se describe en el Documento LLAMA 3.

Optimización del rendimiento del almacenamiento con Spectrum-X

NVIDIA Spectrum-X presenta capacidades de enrutamiento adaptativo que mitigan las colisiones de flujo y optimizan el uso del ancho de banda. En comparación con RoCE v2, el protocolo de red Ethernet ampliamente utilizado en las estructuras de almacenamiento y computación de IA, Spectrum-X logra un rendimiento de almacenamiento superior. Las pruebas demuestran una mejora de hasta el 48 % en el ancho de banda de lectura y un aumento del 41 % en el ancho de banda de escritura. Estos avances se traducen en una ejecución más rápida de las cargas de trabajo de IA, lo que reduce los tiempos de finalización de los trabajos de entrenamiento y minimiza la latencia entre tokens para las tareas de inferencia.

A medida que las cargas de trabajo de IA aumentan en complejidad, las soluciones de almacenamiento deben evolucionar en consecuencia. Los principales proveedores de almacenamiento, incluidos DDN, VAST Data y WEKA, se han asociado con NVIDIA para integrar Spectrum-X en sus soluciones de almacenamiento. Esta colaboración permite que las estructuras de almacenamiento de IA aprovechen las capacidades de red de vanguardia, lo que mejora el rendimiento y la escalabilidad.

La supercomputadora Israel-1: validando el impacto de Spectrum-X

NVIDIA construyó la supercomputadora de inteligencia artificial generativa Israel-1 como banco de pruebas para optimizar el rendimiento de Spectrum-X en escenarios del mundo real. El equipo de Israel-1 realizó una evaluación comparativa exhaustiva para evaluar el impacto de Spectrum-X en el rendimiento de la red de almacenamiento. Mediante el análisis comparativo Flexible I/O Tester (FIO), compararon una configuración de red RoCE v2 estándar con el enrutamiento adaptativo y el control de congestión de Spectrum-X habilitados.

Las pruebas abarcaron configuraciones que iban desde 40 a 800 GPU y demostraron de manera constante un rendimiento superior con Spectrum-X. Las mejoras en el ancho de banda de lectura oscilaron entre el 20 % y el 48 %, mientras que el ancho de banda de escritura registró ganancias entre el 9 % y el 41 %. Estos resultados coinciden estrechamente con las mejoras de rendimiento observadas en las soluciones del ecosistema de socios, lo que valida aún más la eficacia de la tecnología en las estructuras de almacenamiento de IA.

El papel de las redes de almacenamiento en el rendimiento de la IA

La eficiencia de la red de almacenamiento es fundamental para las operaciones de IA. El entrenamiento de modelos suele durar días, semanas o incluso meses, lo que requiere análisis periódicos. punto de control Para evitar la pérdida de datos debido a una falla del sistema. Con modelos de IA a gran escala que alcanzan estados de punto de control de escala de terabytes, la gestión eficiente de la red de almacenamiento garantiza una continuidad de entrenamiento sin inconvenientes.

Las cargas de trabajo de inferencia basadas en RAG enfatizan aún más la importancia de las estructuras de almacenamiento de alto rendimiento. Al combinar un LLM con una base de conocimiento dinámica, RAG mejora la precisión de la respuesta sin necesidad de volver a entrenar el modelo. Estas bases de conocimiento, que suelen almacenarse en grandes bases de datos vectoriales, requieren acceso a almacenamiento de baja latencia para mantener un rendimiento de inferencia óptimo, en particular en entornos de IA generativa de múltiples inquilinos que manejan grandes volúmenes de consultas.

Aplicación de enrutamiento adaptativo y control de congestión al almacenamiento

Spectrum-X presenta innovaciones clave en redes Ethernet adaptadas de InfiniBand para mejorar el rendimiento de la estructura de almacenamiento:

  • Enrutamiento adaptable:Spectrum-X equilibra dinámicamente el tráfico de la red para evitar colisiones de flujos masivos durante las operaciones de puntos de control y de uso intensivo de datos. Los conmutadores Ethernet Spectrum-4 analizan los datos de congestión en tiempo real y seleccionan la ruta menos congestionada para cada paquete. A diferencia de Ethernet tradicional, donde los paquetes fuera de orden requieren retransmisión, Spectrum-X utiliza SuperNIC y DPU para reordenar los paquetes en el destino, lo que garantiza un funcionamiento sin problemas y una utilización más eficaz del ancho de banda.
  • Control de congestión: Punto de control y otras operaciones de almacenamiento de IA suelen generar congestiones de varios a uno, donde varios clientes intentan escribir en un solo nodo de almacenamiento. Spectrum-X mitiga esto regulando las tasas de inyección de datos mediante telemetría basada en hardware, lo que evita puntos críticos de congestión que podrían degradar el rendimiento de la red.

Cómo garantizar la resiliencia en las estructuras de almacenamiento de IA

Las fábricas de IA a gran escala incorporan una extensa red de conmutadores, cables y transceptores, lo que hace que la resiliencia sea un factor crítico para mantener el rendimiento. Spectrum-X emplea enrutamiento adaptativo global para redirigir rápidamente el tráfico durante fallas de enlace, lo que minimiza las interrupciones y preserva la utilización óptima de la estructura de almacenamiento.

Integración perfecta con NVIDIA AI Stack

Además de las innovaciones de hardware de Spectrum-X, NVIDIA ofrece soluciones de software para acelerar los flujos de trabajo de almacenamiento de IA. Entre ellas se incluyen:

  • NVIDIA aire:Una herramienta de simulación basada en la nube para modelar conmutadores, SuperNIC y almacenamiento, agilizando la implementación y las operaciones.
  • NVIDIA Cumulus Linux:Un sistema operativo de red con automatización incorporada y soporte API para una gestión eficiente a escala.
  • DOCA de NVIDIA:Un SDK para SuperNIC y DPU, que proporciona capacidad de programación mejorada y rendimiento de almacenamiento.
  • NVIDIA NetQ:Una herramienta de validación de red en tiempo real que se integra con la telemetría del conmutador para mejorar la visibilidad y el diagnóstico.
  • Almacenamiento NVIDIA GPUDirect:Una tecnología de transferencia directa de datos que optimiza las rutas de memoria de almacenamiento a GPU para mejorar el rendimiento de los datos.

Al integrar Spectrum-X en las redes de almacenamiento, NVIDIA y sus socios están redefiniendo el rendimiento de la infraestructura de IA. La combinación de redes adaptativas, control de congestión y optimización de software garantiza que las fábricas de IA puedan escalar de manera eficiente, brindando información más rápida y una eficiencia operativa mejorada.

Interactuar con StorageReview

Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed