En este artículo detallado, proporcionamos un análisis de rendimiento de la GPU NVIDIA® H100 del mundo real para Western Digital OpenFlex™ Data24. Al habilitar rutas de datos directas entre la memoria de la GPU y el almacenamiento, OpenFlex Data24 reduce significativamente la latencia y maximiza el ancho de banda.
Este informe está patrocinado por Western Digital. Todos los puntos de vista y opiniones expresados en este informe se basan en nuestra visión imparcial de los productos bajo consideración.
La IA está de moda estos días, y mientras algunos hiperescaladores están creando soluciones personalizadas para su problema de datos de IA, Western Digital (WD) tiene una respuesta para el resto de nosotros. El Western Digital OpenFlex™ Data24™ ofrece una solución de almacenamiento sólida y escalable para satisfacer las demandas de alto rendimiento de la IA y otras cargas de trabajo aceleradas por GPU. Al habilitar rutas de datos directas entre la memoria de la GPU y el almacenamiento, OpenFlex Data24 reduce significativamente la latencia. También maximiza el ancho de banda, lo que garantiza un manejo eficiente de los datos y una utilización óptima de la GPU para un procesamiento más rápido y eficaz de conjuntos de datos a gran escala.
Al aprovechar NVMe-oF™, Western Digital puede compartir almacenamiento desagregado de alta velocidad en múltiples servidores, lo que garantiza un rápido acceso y transferencia de datos. La perfecta integración de OpenFlex Data24 con GPU de alto rendimiento le permite ofrecer el inmenso rendimiento necesario para el entrenamiento y la inferencia de IA, posicionándolo como un habilitador clave de las operaciones del centro de datos de próxima generación. Estas características hacen de OpenFlex Data24 una herramienta poderosa para cualquier organización que busque aprovechar todo el potencial de la IA y otras cargas de trabajo computacionales avanzadas.
Western Digital OpenFlex Data24 4000
La plataforma de almacenamiento NVMe-oF OpenFlex Data24 serie 4000 de Western Digital brinda un rendimiento incomparable a entornos de almacenamiento compartido. Esta plataforma de alto rendimiento amplía las capacidades de la memoria flash NVMe™ y proporciona un uso compartido de baja latencia a través de una estructura Ethernet. La serie Data24 4000 aprovecha seis dispositivos Western Digital RapidFlex™ A2000 Fabric Bridge para ofrecer una conectividad de red perfecta utilizando hasta doce puertos de 100 GbE. Estas interfaces soportan tanto RoCEv2 y protocolos TCP, que brindan opciones versátiles para la transferencia de datos.
El chasis está diseñado en un factor de forma 2U y admite hasta 24 SSD NVMe U.2 de doble puerto. Con soporte para PCIe® Gen4, esta plataforma está diseñada para utilizar completamente el rendimiento de cada SSD, manteniendo un alto ancho de banda en todo el chasis. Las SSD NVMe están disponibles en varias capacidades y opciones de resistencia, incluidas las SSD Ultrastar® DC SN655 con una capacidad de hasta 15.36 TB para una capacidad bruta total de 368 TB¹.
El diseño de la plataforma elimina la sobresuscripción, lo que garantiza un acceso equilibrado que preserva el rendimiento de NVMe. La serie Data24 4000 también incorpora soporte API RESTful para una gestión optimizada, mejorando la facilidad de uso y la integración en las infraestructuras de TI existentes.
La alta disponibilidad y la confiabilidad de clase empresarial son atributos críticos de la serie Data24 4000. Los toques como los módulos de E/S duales y la redundancia de ventiladores N+2 brindan tranquilidad para garantizar un funcionamiento continuo incluso durante fallas imprevistas de los componentes. Toda la plataforma, incluidos los SSD, está respaldada por una garantía limitada de 5 años.
Especificaciones clave de Western Digital OpenFlex Data24
Especificaciones de OpenFlex Data24 | |
---|---|
Capacidad máxima de almacenamiento | 368TB |
Tensión de entrada | 120V - 240V |
PSU | 800W doble |
De transferencia de datos | 12x NVMe de 100 Gbps |
Factor de forma | 2U |
Temperatura operacional | 10 ° C a 35 ° C |
Peso | 18.25 kg / 40.2 lbs |
Dimensiones (W x L x H) | 491.9 mm x 628.65 mm x 85.5 mm / 19.37 pulg. x 24.75 pulg. x 3.37 pulg. |
Consumo de energía (máximo/típico) | 750W / ~550W |
Eficiencia de la fuente de alimentación | 80 más titanio |
Ranuras para unidades | 24 |
Enfriamiento | 4 ventiladores del sistema (compatible con N+2) |
Unidades de rack (U) | 2U |
Profundidad requerida del estante | 1000 mm (39.4 pulg.) |
Ancho de bastidor requerido | 450mm (17.72 en.) |
Prueba de datos OpenFlex24
Para estirar las piernas de OpenFlex Data24, tuvimos que reunir algunas piezas clave: NVIDIA GPUDirect™, NVIDIA IndeX® y la friolera de 5.9 TB de datos de Tornado Simulation. Al aprovechar NVIDIA GPUDirect, habilitamos la comunicación directa entre la memoria de la GPU y OpenFlex Data24, reduciendo drásticamente la latencia y maximizando el rendimiento de los datos. La utilización de IndeX de NVIDIA nos permitió visualizar e interactuar de manera más eficiente con el enorme conjunto de datos de tornados, mostrando las capacidades de procesamiento en tiempo real del sistema. Esta configuración proporcionó un banco de pruebas perfecto para demostrar la capacidad de OpenFlex Data24 para manejar cargas de trabajo intensivas de IA y procesamiento de datos a gran escala con una velocidad y eficiencia notables.
NVIDIA GPUDirect
NVIDIA GPUDirect La tecnología mejora significativamente la eficiencia de la transferencia de datos dentro de entornos informáticos GPU de alto rendimiento. Este conjunto de tecnologías optimiza el movimiento de datos entre GPU y otros componentes del sistema. Al reducir la latencia y la sobrecarga, GPUDirect permite una comunicación más directa entre las GPU y periféricos como adaptadores de red, dispositivos de almacenamiento y otras GPU. Los procesos tradicionales de transferencia de datos implican enrutar datos a través de la CPU y la memoria del sistema, lo que crea cuellos de botella que obstaculizan el rendimiento. GPUDirect mitiga estos cuellos de botella al permitir el acceso directo a la memoria (DMA) a la memoria de la GPU, sin pasar por la CPU y la memoria del sistema, mejorando así el rendimiento general.
Según Harry Petty, director sénior de marketing técnico de NVIDIA:
“Las tecnologías de NVIDIA ofrecen baja latencia y rápida transferencia de datos desde el almacenamiento, optimizando el rendimiento de las cargas de trabajo de IA al reducir el tiempo de inactividad de la GPU. Esto ofrece tiempos de entrenamiento de modelos más rápidos y resultados más precisos, lo que permite descubrimientos más rápidos y flujos de trabajo más eficientes”.
GPUDirect comprende varias características vitales, incluida GPUDirect RDMA, que facilita las transferencias directas de datos entre la GPU y los adaptadores de red compatibles con RDMA. Esta comunicación directa es crucial para aplicaciones que requieren intercambios rápidos de datos, como simulaciones científicas y análisis de datos a gran escala. Al permitir transferencias de datos más rápidas, GPUDirect RDMA reduce la latencia y aumenta la eficiencia de los clústeres de GPU. Además, GPUDirect Storage integra las GPU más estrechamente con los sistemas de almacenamiento de alta velocidad, lo que permite que las aplicaciones con uso intensivo de datos aprovechen el ancho de banda máximo del almacenamiento NVMe moderno. Esta integración acelera el acceso a los datos y reduce el tiempo de espera para que los datos se carguen en la memoria de la GPU, algo crucial para el análisis en tiempo real y las cargas de trabajo de aprendizaje automático a gran escala.
Las capacidades de GPUDirect son particularmente impactantes en entornos donde varias GPU funcionan en conjunto, como los clústeres de capacitación de aprendizaje profundo. Al facilitar la comunicación directa entre GPU, GPUDirect optimiza el procesamiento paralelo y reduce significativamente la sobrecarga asociada con las transferencias de datos entre GPU. Esta mejora es particularmente beneficiosa en el entrenamiento de redes neuronales complejas, donde se deben intercambiar rápidamente grandes volúmenes de datos entre múltiples GPU. Las ganancias de eficiencia de GPUDirect también son evidentes en aplicaciones como simulaciones de dinámica molecular y dinámica de fluidos, donde las cargas de trabajo computacionales se distribuyen entre numerosas GPU para lograr resultados más rápidos.
Índice NVIDIA
Índice NVIDIA es una herramienta avanzada de visualización volumétrica diseñada para manejar conjuntos de datos masivos con alta fidelidad. IndeX aprovecha la aceleración de GPU para proporcionar visualización interactiva en tiempo real de datos volumétricos 3D, lo que lo hace indispensable para industrias como la exploración de petróleo y gas, imágenes médicas e investigación científica. Las herramientas de visualización tradicionales a menudo luchan con el tamaño y la complejidad de los conjuntos de datos modernos, lo que genera tiempos de renderizado más lentos y experiencias de usuario menos interactivas. IndeX supera estas limitaciones utilizando la tecnología GPU de NVIDIA para ofrecer renderizado y procesamiento de datos de alto rendimiento, garantizando que los usuarios puedan interactuar con sus datos en tiempo real.
Las capacidades de IndeX están impulsadas por su capacidad para aprovechar la potencia de procesamiento paralelo de las GPU, lo que le permite administrar y representar datos volumétricos a gran escala de manera eficiente. Esta capacidad es valiosa en aplicaciones que requieren visualización de alta resolución, como interpretación sísmica y simulación de yacimientos en el sector de petróleo y gas. Al proporcionar representaciones visuales detalladas y precisas de las estructuras del subsuelo, IndeX ayuda a los geocientíficos a tomar decisiones más informadas. En el campo de la medicina, IndeX facilita la visualización de estructuras anatómicas complejas a partir de modalidades de imágenes como resonancias magnéticas y tomografías computarizadas, lo que ayuda al diagnóstico y la planificación del tratamiento.
La capacidad de renderizado en tiempo real de IndeX también es crucial para la investigación científica, donde es necesario visualizar y analizar rápidamente grandes conjuntos de datos de simulaciones y experimentos. Los investigadores pueden manipular y explorar sus datos de forma interactiva, lo que permite probar y descubrir hipótesis más rápido. La escalabilidad de IndeX garantiza que pueda manejar los crecientes volúmenes de datos generados por simulaciones e instrumentos científicos avanzados, proporcionando a los investigadores las herramientas para visualizar e interpretar sus datos de manera efectiva. Al integrarse perfectamente con los flujos de trabajo existentes y admitir varios formatos de datos, IndeX mejora la productividad y acelera el ritmo de descubrimiento en múltiples disciplinas.
Atarlo todo junto
La integración de la serie Data24 4000 con la tecnología NVIDIA GPUDirect mejora significativamente el rendimiento de las aplicaciones con uso intensivo de GPU al agilizar las transferencias de datos entre las GPU y el almacenamiento. GPUDirect facilita el acceso directo a la memoria, lo que permite que el movimiento de datos omita la CPU y la memoria del sistema para reducir la latencia y aumentar el rendimiento. Cuando se combina con las capacidades NVMe-oF de alto rendimiento de la serie Data24 4000, GPUDirect garantiza que las GPU puedan acceder rápidamente a grandes conjuntos de datos almacenados en los SSD NVMe.
Esta integración es particularmente beneficiosa en entornos donde el intercambio de datos de alta velocidad entre las GPU y el almacenamiento es crucial, como el aprendizaje profundo y las simulaciones científicas. La baja latencia y el alto ancho de banda de la serie Data24 4000, junto con las rutas de datos directas habilitadas por GPUDirect, minimizan los tiempos de transferencia de datos y permiten una utilización más eficiente de la GPU. Esta sinergia optimiza el rendimiento de las tareas de procesamiento paralelo, donde varias GPU requieren un acceso rápido y frecuente a datos compartidos.
Para esta prueba, el OpenFlex Data24 4000 y el servidor GPU se conectan a través de un conmutador de 200 GbE utilizando el protocolo NVMe-oF RoCEv2 con MTU coincidentes de 5000. El servidor GPU utiliza 3 RNIC Mellanox® CX7 con 2x 200 GbE por RNIC. El OpenFlex Data24 4000 está disponible con 12 puertos de 100 GbE. Cada puerto CX7 tiene 2 direcciones IP, lo que permite que un solo CX7 se asigne a cuatro puertos en Data24. Esto proporciona conectividad a los 4 carriles PCIe en cada unidad de doble puerto. Los 6 enlaces de 200 GbE equivalen al potencial de ancho de banda de 12 enlaces de 100 GbE para una arquitectura de red sin bloqueo.
Cada NVIDIA H100 está conectada a través de una ranura PCIe Gen5 x16, que en teoría puede alcanzar 64 GB/s de ancho de banda bidireccional. En teoría, cada puerto RNIC de 200 GbE y 100 GbE puede alcanzar 25 GB/s y 12.5 GB/s respectivamente. Una consideración de diseño crítica es garantizar una arquitectura sin bloqueo. Esto requiere que las unidades GPU, RNIC y NVMe-oF estén asignadas físicamente en la misma CPU, NUMA y conmutador PLX. Esto permite que la configuración aproveche al máximo GPUDirect. Como se ve en esta implementación, una configuración reflejada en la segunda CPU, NUMA y conmutador PLX permitiría una escala de computación predecible y una duplicación teórica del rendimiento.
En los grupos de entrenamiento de IA, la combinación de Data24 4000 y GPUDirect puede permitir tiempos de entrenamiento más rápidos al reducir los cuellos de botella asociados con la carga de datos. Las rutas de datos eficientes garantizan que las GPU puedan recibir datos continuamente sin interrupción, manteniendo altas velocidades de procesamiento y mejorando la eficiencia general del sistema. Esta configuración también es ventajosa para análisis en tiempo real y otras aplicaciones que exigen un rápido acceso y procesamiento de datos, lo que proporciona un aumento significativo del rendimiento para diversas cargas de trabajo computacionales.
Configuración del servidor NVIDIA Index
Para la prueba NVIDIA IndeX, utilizamos el Supermicro 521GE-TNRT equipado con el backplane PCIe conmutado, un par de NVIDIA H100 y tres tarjetas de red NVIDIA ConnectX-7.
Especificaciones clave del Supermicro® 521GE-TNRT | |
---|---|
Modelo | Supermicro 521GE-TNRT |
Procesador | 2x Intel® Xeon® Platino 8462Y+ |
Salud Cerebral | DDR1 de 5 TB |
GPU | 2x NVIDIA H100 PCIe |
Interfaz de red | 3 tarjetas de red NVIDIA ConnectX-7 |
Pruebas sintéticas GDSIO
La herramienta de evaluación comparativa utilizada para este propósito es GDSIO, una utilidad patentada especializada de NVIDIA diseñada para medir el rendimiento del almacenamiento en entornos de almacenamiento directo de GPU (GDS). Analizamos algunas configuraciones para esta ronda de pruebas: una sola GPU con 12 unidades y 24 unidades, así como dos GPU con 24 unidades.
El rendimiento de Western Digital OpenFlex Data24 en la prueba de rendimiento GDSIO, junto con las GPU NVIDIA H100, revela información sobre la potencia bruta de las unidades. Cuando se configuró con 12 unidades y una sola GPU, el sistema logró un ancho de banda de escritura de 44.14 GB/s. Aumentar el número de unidades a 24 mientras se utiliza una GPU mostró una mejora modesta, con un rendimiento de escritura que alcanzó los 54.15 GB/s. La introducción de una segunda GPU en la configuración de 24 unidades resultó en un aumento sustancial, elevando el ancho de banda de escritura a 87.91 GB/s.
El rendimiento de lectura sigue una tendencia similar. La configuración de 12 unidades y una GPU arrojó un ancho de banda de lectura de 53.47 GB/s. La ampliación a 24 unidades con una GPU aumenta ligeramente hasta 54.75 GB/s. Sin embargo, la mejora más espectacular se produjo con la configuración de doble GPU, donde el sistema logró un impresionante ancho de banda de lectura de 101.14 GB/s. Estos resultados subrayan la capacidad de OpenFlex Data24 para escalar de manera predecible con una mayor cantidad de unidades.
La incorporación de GPU juega un papel crucial a la hora de maximizar el rendimiento. La configuración con 24 unidades y dos GPU resultó ser la configuración óptima, ya que ofrece el mayor ancho de banda para operaciones de lectura y escritura. Esta prueba subraya la importancia de la aceleración de GPU para aprovechar todo el potencial del marco GDSIO. OpenFlex Data24, cuando se combina con las GPU NVIDIA H100, demuestra un rendimiento excepcional, lo que lo convierte en una solución sólida para entornos de almacenamiento exigentes.
Para cargas de trabajo de IA, donde la rápida ingesta y procesamiento de datos son primordiales, el rendimiento observado con OpenFlex Data24 puede traducirse en reducciones significativas en los tiempos de capacitación y un manejo más eficiente de grandes conjuntos de datos. La capacidad de mover datos rápidamente desde el almacenamiento a la memoria de la GPU garantiza que los recursos computacionales de las GPU potentes se aprovechen al máximo, lo que facilita un entrenamiento e inferencia de modelos más rápidos y eficientes.
Uso de OpenFlex Data24 para alimentar los tornados del H100
Los investigadores del clima han estudiado durante mucho tiempo las tormentas supercélulas, los fenómenos atmosféricos responsables de los tornados más violentos y peligrosos del mundo. Estas tormentas son dinámicas y complejas, lo que hace que las simulaciones precisas requieran mucho tiempo y datos. Explorar dichos datos ha sido un proceso lento y engorroso, que a menudo lleva horas generar nuevas visualizaciones.
El uso de las GPU NVIDIA y NVIDIA IndeX ha revolucionado este campo. Los científicos ahora pueden realizar visualizaciones volumétricas en tiempo real. La simulación que ejecutamos en el sistema Supermicro con H100 (que recibe datos de OpenFlex Data24) muestra una tormenta de Oklahoma de 2011 simulada por el profesor Leigh Orf. Esta simulación, derivada matemáticamente de las condiciones iniciales justo antes de que se formara el tornado, incluye 250 mil millones de puntos de cuadrícula, cada uno con más de una docena de atributos como lluvia, granizo, presión y velocidad del viento. Esta visualización detallada, que muestra 6000 pasos de simulación, proporciona una visión sin precedentes de la dinámica del tornado.
La clave para esta simulación es NanoVDB, una estructura de datos compacta de volumen disperso que reduce el tamaño de los conjuntos de datos y la huella de memoria al asignar datos directamente a la memoria de la GPU. Junto con la tecnología GPUDirect Storage y OpenFlex Data24, logramos hasta 89 GB/s y podemos ver resultados a más de 13 fotogramas por segundo. Esto se aproximó a aproximadamente 5.9 TB de conjunto de datos ingeridos cada 66 segundos. Esta combinación permite la navegación interactiva, ajustes de parámetros sobre la marcha y desplazarse por la simulación con facilidad.
Con GPUDirect deshabilitado (y, por lo tanto, los datos ahora atraviesan el complejo de la CPU), el ancho de banda se reduce a alrededor de 15 GB/s y la velocidad de fotogramas cae significativamente a 4 fotogramas por segundo.
La velocidad es crucial, pero la calidad fotorrealista también es esencial para validar la precisión de las simulaciones. Si la simulación y la realidad no se alinean, los modelos deben corregirse. NVIDIA Iray, un trazador de ruta basado en GPU que representa un transporte de luz físicamente correcto, se utiliza junto con los datos de volumen de NVIDIA IndeX para potenciar esta visualización. El embudo del tornado, el contacto con el suelo y elementos detallados como la proporción entre nubes y agua y la lluvia, representados por poros de color gris azulado, son claramente visibles.
Conclusión
Los beneficios de rendimiento, tiempo y costos que una arquitectura sin bloqueo bien configurada puede ofrecer a las cargas de trabajo aceleradas por GPU quedan bien demostrados en este proyecto. En pocas palabras, llevar las GPU a su máximo rendimiento o capacidad de procesamiento genera resultados más eficientes y retorno de la inversión.
La arquitectura de Western Digital admite la infraestructura abierta componible (OCI), y la plataforma OpenFlex Data24 4000 aprovecha este enfoque OCI al desagregar el almacenamiento de datos mediante NVMe-over-Fabrics (NVMe-oF). Este desacoplamiento de los recursos de almacenamiento del servidor GPU no solo ayuda a liberar los recursos de los servidores (liberando esos recursos de las actualizaciones tradicionales), sino que, al hacerlo, también permite un ajuste fino de la asignación de la unidad NVMe a las GPU. Esta unidad precisa que se adapta a los requisitos de la GPU permite abordar de cerca las necesidades de capacidad, rendimiento y capacidad de datos de la GPU, lo que a su vez ofrece la escala predecible y la flexibilidad necesarias para esos recursos.
Como los datos ya no están aislados, se convierten en un recurso de almacenamiento en red accesible, que se puede compartir entre múltiples servidores GPU según sea necesario, lo que aumenta aún más la flexibilidad.
Western Digital OpenFlex Data24, combinado con la tecnología NVIDIA GPUDirect, demuestra una capacidad formidable en el manejo de IA y otras cargas de trabajo aceleradas por GPU. Al habilitar rutas de datos directas entre la memoria de la GPU y el almacenamiento NVMe, Data24 reduce significativamente la latencia y maximiza el ancho de banda, lo que garantiza un manejo eficiente de los datos y una utilización óptima de la GPU. Esta integración permite un procesamiento más rápido y eficaz de conjuntos de datos a gran escala, lo que convierte a Data24 en un activo invaluable en entornos modernos con uso intensivo de datos.
Nuestras pruebas en el mundo real, que involucraron un importante conjunto de datos de simulación de tornados, mostraron las notables mejoras en el rendimiento logradas a través de esta configuración. La capacidad de OpenFlex Data24 para ofrecer transferencias de datos de alto rendimiento y baja latencia, junto con las capacidades de visualización en tiempo real de NVIDIA IndeX, subraya su potencial en aplicaciones exigentes como entrenamiento de IA, simulaciones científicas y análisis en tiempo real.
El uso de la serie Data24 y la tecnología GPUDirect para grupos de entrenamiento de IA puede reducir significativamente los tiempos de entrenamiento al garantizar un flujo de datos fluido desde el almacenamiento a las GPU. Esta configuración minimiza los cuellos de botella y mejora la eficiencia general del sistema, lo que lo convierte en un componente fundamental para lograr modelos de IA más rápidos y precisos.
Más allá de la IA, los beneficios de OpenFlex Data24 se extienden a otras cargas de trabajo aceleradas por GPU, incluida la informática de alto rendimiento y el análisis de datos en tiempo real. La latencia reducida y el mayor rendimiento permitido por esta plataforma garantizan que las aplicaciones que requieren acceso y procesamiento de datos rápidos puedan operar al máximo rendimiento, entregando resultados precisos y oportunos.
Vea esta demostración en acción del 6 al 8 de agosto de 2024 en el stand n.º 2024 de FMS 607.
Plataformas OpenFlex de Western Digital
[1] Un terabyte (TB) equivale a un billón de bytes. La capacidad real de usuarios puede ser menor debido al entorno operativo.
Interactuar con StorageReview
Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed