Inicio EmpresaAI Los SSD KIOXIA E1.S hacen que los flujos de trabajo de IA sean más eficientes

Los SSD KIOXIA E1.S hacen que los flujos de trabajo de IA sean más eficientes

by Jordan Ranous

Si bien hay un gran revuelo en torno a los servidores GPU densos para IA, y con razón, la realidad es que la mayoría de los proyectos de capacitación en IA comienzan en estaciones de trabajo. Aunque ahora podemos integrar hasta cuatro GPU NVIDIA A6000 Ada en una sola estación de trabajo, lo que es más desafiante es conseguir un almacenamiento sólido en estas cajas de IA. Pensamos en este problema y se nos ocurrió un plan para suministrar mejor almacenamiento de alta velocidad a algunas estaciones de trabajo de IA. Trabajamos con Supermicro y KIOXIA para llenar un servidor con 24 SSD XD7.68P de 7 TB para crear un servidor de almacenamiento 1U increíblemente capaz con un truco de inferencia bajo la manga.

Si bien hay un gran revuelo en torno a los servidores GPU densos para IA, y con razón, la realidad es que la mayoría de los proyectos de capacitación en IA comienzan en estaciones de trabajo. Aunque ahora podemos integrar hasta cuatro GPU NVIDIA A6000 Ada en una sola estación de trabajo, lo que es más desafiante es conseguir un almacenamiento sólido en estas cajas de IA. Pensamos en este problema y se nos ocurrió un plan para suministrar mejor almacenamiento de alta velocidad a algunas estaciones de trabajo de IA. Trabajamos con Supermicro y KIOXIA para llenar un servidor con 24 SSD NVMe de centro de datos de la serie XD7.68P de 7 TB para crear un servidor de almacenamiento 1U increíblemente capaz con un truco de inferencia bajo la manga.

Sabemos lo que estás pensando: ¿Cómo pretendes conectar los puntos entre una plataforma de servidor repleta de SSD E1.S, estaciones de trabajo que entrenan modelos de IA e inferencias en el mismo servidor de almacenamiento? Permita un poco de libertad para explicar.

Las estaciones de trabajo con IA no necesitan estar debajo de un escritorio

Con algunas excepciones, las estaciones de trabajo de IA de alta potencia con costosas GPU probablemente no deberían distribuirse en el borde o incluso dentro de un edificio de oficinas. Los problemas son muchos. Principalmente, estos puntos finales corren un alto riesgo de sufrir amenazas a la seguridad y fuga de datos y, lo que es más importante, sufren de infrautilización. La mayoría de los profesionales de la IA no pueden acceder a la gran cantidad de datos necesarios para entrenar sus modelos debido a configuraciones de LAN inadecuadas.

Si, por el contrario, pusiéramos estas potentes estaciones de trabajo en el centro de datos, obtendríamos varios beneficios. En primer lugar, se resuelve la seguridad física y los problemas de acceso remoto se pueden mitigar con clientes ligeros o acceso que solo envía píxeles en lugar de datos a través del cable. En este escenario, los datos residen en el servidor en lugar de en la estación de trabajo. En segundo lugar, es más rápido, si no más fácil, realizar copias de seguridad de estos sistemas en el centro de datos. En tercer lugar, con el aprovisionamiento inteligente, podemos aumentar la utilización en toda la empresa al compartir estos sistemas con una fuerza laboral de IA distribuida. Por último, estar en el centro de datos nos da acceso al activo de IA más preciado: los datos.

Aprovisionamos un trío de estaciones de trabajo Lenovo que teníamos en el laboratorio para este trabajo. Cada uno está configurado de manera un poco diferente, aprovechando las GPU de AMD y NVIDIA, lo que brinda flexibilidad, ya que algunos modelos pueden funcionar mejor con diferentes aceleradores. Cada sistema tiene instalada una tarjeta NVIDIA ConnectX-6 100GbE, lo cual es fundamental para garantizar que estos sistemas tengan un acceso rápido al almacenamiento. Luego, cada sistema se conecta a un conmutador Dell Z9100 de 100 GbE, al que también está conectado el servicio de almacenamiento.

Parte Estación de trabajo 1 Estación de trabajo 2 Estación de trabajo 3
Modelo Lenovo P620 Lenovo P620 Lenovo P5
CPU AMD Ryzen Threadripper PRO 5995WX AMD Ryzen Threadripper PRO 3995WX Intel Xeon w7-2495X
Salud Cerebral 128GB DDR4 3200 32GB DDR4 3200 32GB DDR5 4800Mhz
GPU AMD Radeon PRO W7900 Nvidia RTX A6000 Nvidia RTX A4500

Almacenamiento rápido de IA con SSD de la serie KIOXIA XD7P

Una vez ordenado el banco de pruebas de la estación de trabajo de IA, pasamos al servidor de almacenamiento. En este caso, estamos usando un Supermicro Almacenamiento SuperServidor SSG-121E-NES24R. Este servidor 1U cuenta con procesadores duales Intel Xeon Platinum 8450H de 28 núcleos y 56 subprocesos con una frecuencia base de 2.00 GHz. Los procesadores 8450H pueden alcanzar una frecuencia turbo máxima de 3.50 GHz y cuentan con un caché de 75 MB y un TDP de 250 W. Los 512 GB de RAM DDR5 son una huella de RAM relativamente modesta. El servidor utiliza la misma NIC NVIDIA ConnectX-6 100GbE que las estaciones de trabajo para la conectividad. También instalamos una GPU NVIDIA A2 para realizar inferencias.

En cuanto al almacenamiento, KIOXIA nos envió 24 SSD NVMe para centros de datos de la serie XD7P. Los SSD KIOXIA XD7P Serie E1.S están diseñados específicamente para abordar las necesidades de las aplicaciones de hiperescala que se encuentran en los centros de datos modernos, particularmente en lo que respecta al rendimiento, la eficiencia energética y los requisitos térmicos, como se describe en la especificación NVMe SSD del centro de datos de Open Compute Project (OCP).

Estos SSD están disponibles en variaciones E9.5.S de 15 mm y 1 mm de espesor, este último con un disipador de calor para mejorar la disipación de calor. La arquitectura patentada de KIOXIA del XD7P, que comprende su controlador, firmware y 5th-gen BiCS FLASH™, contribuye a la eficiencia, confiabilidad y rendimiento generales. La nueva serie se ofrece en capacidades que van desde 1.92 TB a 7.68 TB para satisfacer las diferentes demandas de almacenamiento.

Algunas características clave incluyen protección contra pérdida de energía (PLP) y protección de datos de extremo a extremo, que son fundamentales para mantener la integridad de los datos en escenarios que involucran una pérdida de energía inesperada. Además, la disponibilidad de la tecnología de unidad de cifrado automático (SED) añade una capa adicional de seguridad de los datos.

En cuanto al rendimiento, los SSD de la serie KIOXIA XD7P ofrecen cifras potenciales impresionantes en diferentes capacidades. Con velocidades sostenidas de lectura secuencial de hasta 7,200 MB/s y velocidades de escritura secuencial de hasta 4,800 MB/s para capacidades más grandes, estos SSD están diseñados para manejar tareas con uso intensivo de datos de manera eficiente. Además, las velocidades sostenidas de lectura y escritura aleatorias de hasta 1,650 200 IOPS y XNUMX XNUMX IOPS, respectivamente, las hacen adecuadas para cargas de trabajo que exigen operaciones de E/S elevadas.

El XD7P aprovecha el factor de forma E1.S para lograr un equilibrio único entre rendimiento y densidad. Esto posiciona a las nuevas unidades como una solución de futuro para almacenamiento flash en la nube y centros de datos de hiperescala, abordando los requisitos cambiantes de estos entornos exigentes. El tamaño estandarizado del XD7P y los disipadores de calor incorporados brindan un medio eficiente para acomodar nuestras 24 unidades montadas en el frente en el SuperServer SSG-1E-NES121R de 24U, lo que aumenta significativamente la densidad del servidor. Además, la capacidad de intercambio en caliente de E1.S, junto con su capacidad para manejar cargas de trabajo de alto rendimiento sin problemas térmicos, lo posiciona como un reemplazo práctico para el conector M.2 en centros de datos, con eficiencia y rendimiento mejorados para soluciones de almacenamiento como centros de datos. .

El XD7P admite carriles PCIe Gen4 x4. La unidad funciona bien con placas posteriores Gen4 o Gen5.

Especificaciones rápidas de la serie KIOXIA XD7P

Capacidad 7,680 GB 3,840 GB 1,920 GB 7,680 GB 3,840 GB 1,920 GB
Especificaciones básicas
Factor de forma E1.S 15mm E1.S 9.5mm
Fácil de usar PCIe 5.0, NVMe 2.0
Tipo de memoria flash BiCS FLASH TLC
Rendimiento (Hasta)
Lectura secuencial sostenida de 128 KiB 7,200MB / s
Escritura secuencial sostenida de 128 KiB 4,800MB / s 3,100MB / s 4,800MB / s 3,100MB / s
Lectura aleatoria sostenida de 4 KiB 1,550K IOPS 1,650K IOPS 1,500K IOPS 1,550K IOPS 1,650K IOPS 1,500K IOPS
Escritura aleatoria sostenida de 4 KiB 200K IOPS 180K IOPS 95K IOPS 200K IOPS 180K IOPS 95K IOPS
Requisitos de energía
Tensión de alimentación 12 V ± 10%
Consumo de energía (activo) 20 W tipo. 20 W tipo. 16 W tipo. 20 W tipo. 20 W tipo. 16 W tipo.
Consumo de energía (Listo) 5 W tipo.
Fiabilidad
MTTF 2,000,000 horas
DWPD 1

Rendimiento del servidor de almacenamiento con SSD de la serie KIOXIA XD7P

Para comprender mejor qué tan bien puede funcionar esta combinación, comenzamos analizando el servidor de almacenamiento con pruebas de rendimiento internas. Al analizar el rendimiento del servidor de almacenamiento, nos centramos en el rendimiento bruto completo en una configuración JBOD en Ubuntu Linux para caracterizar de qué es capaz el almacenamiento.

Analizamos el rendimiento máximo con una carga de trabajo aleatoria de 4K y luego el ancho de banda máximo con una carga de trabajo secuencial de 64k. Estas pruebas se ejecutaron aprovechando VDbench en un entorno Ubuntu 22.04.

carga de trabajo Read Escribe.
Carga secuencial de 64 K y 64 subprocesos 158GB / s 64.1GB / s
Carga aleatoria 4K de 512 subprocesos 4.09 millones de IOPS, 16 GB/s 4.5 millones de IOPS, 17.7 GB/s

En nuestra configuración experimental, decidimos utilizar los espacios de almacenamiento de Windows en combinación con el protocolo SMB3 para aprovechar las unidades KIOXIA de alta velocidad. Al aprovechar Storage Spaces para crear un grupo de almacenamiento reflejado resistente, pudimos garantizar la integridad de los datos y optimizar el rendimiento de E/S.

Las funciones mejoradas de SMB3, como las capacidades multicanal y los controles persistentes, permiten la transmisión directa de grandes fragmentos de datos con un alto rendimiento a múltiples estaciones de trabajo GPU, evitando los cuellos de botella tradicionales a menudo asociados con una memoria más lenta vinculada a la CPU. Esta configuración tenía la doble ventaja de permitir una recuperación rápida de datos y al mismo tiempo permitir que múltiples estaciones de trabajo accedan y carguen datos simultáneamente desde y hacia nuestro almacenamiento compartido impulsado por KIOXIA.

Si bien nuestras pruebas anteriores midieron el rendimiento bruto de los SSD de la serie KIOXIA XD7P sin un sistema de archivos instalado, analizamos por segunda vez el rendimiento dentro del entorno Windows Server 2022. En esta configuración, con el disco virtual reflejado en nuestro gran grupo de almacenamiento, utilizamos el sistema de archivos NTFS.

Para confirmar un rendimiento sólido dentro de nuestro volumen reflejado, aprovechamos CrystalDiskMark localmente en el servidor. Esta prueba se configuró para medir el rendimiento de lectura y escritura secuencial con un tamaño de transferencia de 1 MB, así como velocidades de transferencia aleatorias de 4K. Aquí, con un espacio de archivo de 64 GB, medimos 87.4 GB/s de lectura y más de 18.4 GB/s de escritura.

Para este documento, analizamos las capacidades generales de toda la solución de IA, por lo que, si bien tener este tipo de perfil de rendimiento es impresionante, KIOXIA claramente nos brinda más de lo que necesitamos. Esto es algo bueno, ya que significa que podríamos aumentar fácilmente la cantidad de estaciones de trabajo de IA o asignar tareas adicionales al servidor de almacenamiento, ya sea depurar y limpiar nuestros datos o algo completamente diferente.

Proporcionando a las estaciones de trabajo de IA abundante almacenamiento de alta velocidad

Con nuestras estaciones de trabajo GPU ubicadas en el bastidor del laboratorio, conectadas en red con 100 GbE a nuestro servidor de archivos 1U totalmente flash basado en KIOXIA y recursos compartidos configurados, salimos a probar esto en la práctica. En nuestra configuración de prueba, optamos por un enlace único básico de 100 GbE desde cada estación de trabajo a nuestro conmutador Dell Z9100 de 100 GbE, que luego se conectó nuevamente al servidor de almacenamiento con otro enlace de 100 GbE.

Aquí pudimos medir una impresionante lectura de 11.4 GB/s y una escritura de 11 GB/s desde un archivo compartido de Windows en nuestro servidor de almacenamiento KIOXIA.

Este nivel de rendimiento y densidad a través del cable a las estaciones de trabajo de IA proporcionará un valor tremendo. En lugar de intentar llenar las estaciones de trabajo de IA con almacenamiento local, podemos compartir un almacenamiento aún más eficaz de más de 100 GbE con una capacidad más o menos ilimitada.

GenAI en la práctica: conjuntos de datos de capacitación LLM

Los modelos de lenguaje grande (LLM, por sus siglas en inglés) son los niños más populares en el bloque de TI en estos días. Entrenarlos y ajustarlos es una tarea enorme que requiere conjuntos de datos monumentales y una potencia de GPU aún mayor para procesarlos. Para cargar algunas estaciones de trabajo GPU y realizar algunas pruebas de estilo en el mundo real, analizamos todos los textos enviados y comentarios de Reddit de 2012 a 2021 con algunos ajustes, así como el Conjunto de datos de entrenamiento de Stanford Alpaca, al modelo llama para múltiples intentos de ajuste. El objetivo era evaluar la eficiencia, precisión y viabilidad del modelo LLaMa cuando se somete a conjuntos de datos del mundo real a gran escala.

Desde la plataforma Windows Server 2022, los 24 SSD de la serie KIOXIA XD7P se agruparon en un grupo de 168 TB y luego en un volumen reflejado de 83.7 TB. Luego, este volumen se compartió a través de la red de 100 GbE con un recurso compartido de archivos para cada una de las tres estaciones de trabajo para aprovecharlo. El servidor de almacenamiento Supermicro Superserver utilizado puede manejar un tamaño de datos que ocupa todo el volumen de 84 TB sin afectar el rendimiento. El tamaño de datos utilizado actualmente es de 5.6 TB, pero el volumen puede soportar un tamaño mucho mayor.

Cada estación de trabajo GPU se configuró de forma ligeramente diferente para proporcionar un entorno diverso. Tratamos cada máquina como si fuera un desarrollador individual que trabaja con diferentes modelos en un conjunto de datos compartido y no distribuimos ninguna capacitación. La selección de Windows en este contexto fue para emular un escenario inicial de investigación o desarrollo.

Para contextualizar la escala de datos con la que estamos tratando, nuestros conjuntos de datos para esta prueba comprendían 16,372 archivos para datos de entrenamiento LLM, que consumían 3.7 TB de espacio en disco, y otros 8,501 archivos para datos de entrenamiento de imágenes que ocupaban 1.9 TB. En total trabajamos con 24,873 archivos que suman 5.6TB. Es importante señalar que restringimos deliberadamente el tamaño de nuestros conjuntos de datos y no utilizamos toda la capacidad de almacenamiento para estos experimentos; de lo contrario, el proceso de formación o de ajuste habría sido prohibitivo en términos de tiempo para este proyecto. Con esta configuración, todas las estaciones de trabajo pudieron compartir los conjuntos de datos y guardar puntos de control y fragmentos en el servidor para colaborar.

archivos Tamaño en disco
Datos de formación de LLM 16,372 3.7TB
Datos de entrenamiento de imágenes 8,501 1.9TB
Total 24,873 5.6TB

La pila de software para nuestros dos experimentos era una configuración simple y nos apoyamos en el poder de Anaconda y Subsistema de Windows para Linux (WSL). Anaconda proporciona un entorno sólido para administrar nuestras bibliotecas y dependencias de aprendizaje automático basadas en Python, lo que permite una configuración modular y fácilmente replicable en nuestras estaciones de trabajo GPU. WSL ayuda a cerrar la brecha entre las utilidades basadas en Windows y Linux, ofreciendo la flexibilidad de ejecutar herramientas de orquestación y manipulación de datos específicas de Linux sin problemas en nuestras estaciones de trabajo Windows. Podríamos ejecutar scripts de shell para el preprocesamiento de datos e iniciar trabajos de capacitación basados ​​en Python, todo dentro de un flujo de trabajo unificado. Parte de la razón por la que seleccionamos esta ruta no fue solo la facilidad de configuración sino también la nivelación del campo de juego con nuestro entorno de GPU mixto.

En el proceso de capacitación, se hicieron algunas observaciones clave:

  1. Diversidad de datos: la combinación de envíos y comentarios de Reddit, que abarcan casi una década, presentó al modelo una combinación ecléctica de temas, léxicos y contextos conversacionales. Esta rica diversidad proporcionó una plataforma integral para que el modelo comprendiera y se adaptara a diversos matices, sentimientos y cambios culturales a lo largo del tiempo.
  2. Escalabilidad del modelo: manejar un volumen tan inmenso de datos fue una prueba de fuego para la escalabilidad del modelo LLaMa. Descubrimos que a medida que aumentaban las épocas de entrenamiento, la capacidad del modelo para predecir y generar respuestas relevantes mejoraba considerablemente, destacando su potencial para aplicaciones a gran escala. El sobreajuste fue una preocupación después de aproximadamente media docena, pero no necesariamente fue una preocupación para esta prueba, ya que el objetivo era cargar nuestras GPU y compartir red más que crear un modelo LLM general.
  3. Optimización de recursos: dada la enorme potencia de la GPU requerida, era crucial garantizar la utilización eficiente de los recursos computacionales. Se emplearon equilibrio de carga dinámico, puntos de control periódicos y técnicas de aumento de datos sobre la marcha para garantizar un rendimiento óptimo.
  4. Potencia de transferencia de aprendizaje: el uso del conjunto de datos de entrenamiento de Stanford Alpaca junto con los datos de Reddit fue fundamental para medir las capacidades de transferencia de aprendizaje del modelo. La estructura inherente y la naturaleza académica del conjunto de datos de Alpaca, yuxtapuestas con la naturaleza informal y variada de los datos de Reddit, plantearon un desafío apasionante. Los resultados indicaron que LLaMa podía integrar perfectamente conocimientos de fuentes dispares, haciéndolo versátil y adaptable.
  5. Consideraciones éticas: si bien el vasto conjunto de datos de Reddit ofrece un tesoro de información, es esencial garantizar que se excluya la información de identificación personal y que los datos se utilicen de manera ética y responsable. Sería necesario implementar rigurosos procesos de limpieza y anonimización de datos para que la publicación del modelo respete la privacidad del usuario.

Este ejercicio subrayó el papel fundamental que desempeñaron los motores de alta densidad de KIOXIA en la mejora de la eficiencia de nuestro entrenamiento. Dado el tamaño colosal de los conjuntos de datos y la naturaleza iterativa del entrenamiento de modelos, la velocidad y la capacidad de almacenamiento suelen ser obstáculos en este tipo de experimentos. Con las unidades de KIOXIA, tuvimos el lujo de almacenar múltiples instancias del conjunto de datos, pesos de modelos intermedios y docenas de puntos de control ajustados. Sus rápidas velocidades de lectura y escritura facilitaron la recuperación rápida de datos, lo que nos permitió procesar múltiples iteraciones del ajuste con diferentes hiperparámetros en paralelo, como se muestra a continuación.

Esto fue crucial en nuestra búsqueda de identificar un punto de control de funcionamiento óptimo. Gracias a nuestro servidor de almacenamiento impulsado por KIOXIA recientemente construido, pudimos concentrarnos en refinar el modelo, ajustar los parámetros y evaluar los resultados en lugar de estar limitados por las limitaciones de almacenamiento. Por lo tanto, las unidades de alta densidad no fueron solo una solución de almacenamiento sino un activo fundamental que aceleró significativamente nuestra fase de experimentación. Esto permitió una exploración más exhaustiva y eficiente del potencial del modelo LLaMa y nos permitió desarrollar nuestra propia red neuronal convolucional (CNN).

Para los no iniciados, una red neuronal convolucional (CNN) es un tipo especializado de arquitectura de aprendizaje profundo que se utiliza predominantemente en tareas de procesamiento de imágenes y visión por computadora. Su característica distintiva radica en las capas convolucionales que aprenden de forma automática y adaptativa jerarquías espaciales de características a partir de imágenes de entrada. A diferencia de las redes neuronales tradicionales que se basan en capas completamente conectadas, las CNN aprovechan la estructura espacial de los datos aplicando filtros convolucionales, que procesan los datos de entrada en pequeños fragmentos o campos receptivos. Esto da como resultado una red que puede detectar patrones intrincados, como bordes, texturas y estructuras más complejas, construyéndolas a partir de otras más simples. A medida que los datos avanzan más profundamente en la red, estos patrones se vuelven más abstractos, lo que permite a las CNN reconocer y clasificar jerárquicamente entidades visuales diversas y a menudo complicadas.

A través de múltiples intentos de ajuste, el modelo demostró su capacidad para procesar conjuntos de datos masivos de manera eficiente y destacó su potencial para producir resultados relevantes, matizados y conscientes del contexto. A medida que los LLM continúan ganando terreno, estos experimentos ofrecen información invaluable sobre sus aplicaciones prácticas y limitaciones, allanando el camino para soluciones de IA más sofisticadas y centradas en el usuario en el futuro.

Capacidades de inferencia del servidor

La ejecución de operaciones de inferencia en el mismo conjunto de datos ofrece una estructura optimizada, lo que simplifica las complejidades de la gestión de datos. Nuestro servidor no es simplemente una herramienta de almacenamiento: está equipado para manejar actividades relacionadas con la inferencia, incluida la ingesta y preparación de datos.

Para probar la inferencia en conjuntos de datos más grandes, seleccionamos un conjunto de imágenes de astrofotografía que van desde aproximadamente 1 Mb a 20 Mb y ejecutamos una nueva CNN en la que estamos trabajando con ellas. En nuestro escenario, el modelo se carga en la GPU y luego se carga una imagen o una serie de imágenes para su procesamiento a través de la red neuronal.

Este es un perfil de huella de almacenamiento más amplio que el que encontraría en algo como una clasificación de objetos de visión por computadora de una cámara estandarizada. Aun así, ilustró la flexibilidad y coherencia del rendimiento de la plataforma. En el siguiente gráfico, que está ordenado por tamaño y no por el orden en que se cargó (con la excepción de algunos valores atípicos), los tiempos de lectura y reescritura se escalan adecuadamente.

Es importante recordar que este gráfico está ordenado de menor a mayor para ilustrar el rendimiento lineal de las unidades y el servidor. La ejecución real y el conjunto de datos fueron aleatorios, por lo que se podría haber leído y escrito un archivo de 1 Mb, seguido inmediatamente por un archivo de 20 Mb. El tipo de procesamiento real no siguió ningún orden en particular. Los tiempos de lectura oscilaron entre 10 ms y 25 ms, con valores atípicos que alcanzaron el rango de más de 70 ms.

El siguiente cuadro ilustra la escritura de una progresión lineal similar con menos desviación y muestra las escrituras de los mismos archivos en un rango de 12 ms a 118 ms.


Otra información esencial para recordar es que este gráfico es un agregado del seguimiento en tres estaciones de trabajo GPU que ejecutan simultáneamente una inferencia sobre el mismo conjunto de datos. Las unidades KIOXIA pudieron servir y escribir una impresionante cantidad de 10.5 GB en tres estaciones de trabajo GPU ejecutando inferencia en un conjunto de datos aleatorio de 1000 imágenes, excluyendo el procesamiento serializado que utiliza el modelo. Todo el proceso solo tomó 59.62 segundos, o 59 ms, para leer y escribir una sola imagen.

Varias opciones podrían mejorar la velocidad y la latencia a medida que este diseño se amplíe a múltiples estaciones de trabajo o servidores GPU. La implementación de GPUDirect Storage de NVIDIA, combinada con el protocolo RDMA (Remote Direct Memory Access), facilitaría el movimiento fluido de datos desde el almacenamiento compartido de alta densidad directamente a la memoria de la GPU. Este enfoque evitaría efectivamente los cuellos de botella de la CPU y la memoria del sistema. Al aprovechar NVMe sobre Fabrics y el equipo de red NVIDIA, se pueden precargar grandes volúmenes de datos en la memoria de la GPU casi en tiempo real. Esto sería particularmente beneficioso cuando se trata de LLM, dados sus importantes conjuntos de datos y demandas computacionales. Esta capacidad podría eliminar la necesidad de almacenamiento en caché de datos y permitiría que varias estaciones de trabajo lean e ingieran datos del grupo de almacenamiento compartido simultáneamente.

Reflexiones Finales:

Abordar el cuello de botella de E/S de modelos más grandes es crucial para la evolución continua del aprendizaje automático, particularmente cuando se trata de conjuntos de datos expansivos. Un recurso compartido de red centralizado y de alta velocidad ofrece una triple ventaja sobre el almacenamiento local tradicional.

  • En primer lugar, agiliza las operaciones al eliminar la necesidad de migrar conjuntos de datos masivos a estaciones de trabajo individuales para capacitación. Esto combate directamente los cuellos de botella de E/S que pueden paralizar los proyectos de aprendizaje automático, especialmente aquellos que involucran modelos de aprendizaje profundo.
  • En segundo lugar, al optar por un enfoque centralizado, se evita sobrecargar los valiosos carriles PCIe de la estación de trabajo con cantidades excesivas o incluso inalcanzables de almacenamiento local. Gracias a la conexión de alta velocidad, esto podría permitir que más GPU procesen datos de manera más eficiente en paralelo, haciendo que las operaciones de aprendizaje automático sean más sencillas y ágiles.
  • En tercer lugar, el almacenamiento centralizado conlleva inherentemente mejores medidas de seguridad. Cuando los datos se almacenan en una ubicación única y segura, resulta más fácil administrar los controles de acceso e implementar protocolos de seguridad, lo que reduce el riesgo de violaciones de datos, amenazas físicas o acceso no autorizado.

Además, la centralización de datos garantiza una mayor coherencia de los datos y una capa adicional de redundancia de datos. Las estaciones de trabajo acceden a los datos más actualizados desde una única fuente, minimizando las discrepancias en los resultados debido a una capacitación obsoleta o inconsistente o a ajustes de datos o puntos de control del modelo. Esto también simplifica la gestión de datos y ahorra espacio de almacenamiento.

A medida que la escalabilidad, la eficiencia y la seguridad se vuelven cada vez más importantes en el panorama en evolución hipersónica de la IA y el aprendizaje automático, el cambio hacia un almacenamiento centralizado, denso y de alta velocidad proporcionado por tecnología como la plataforma KIOXIA E1.S presenta un caso convincente. Esto es fundamental no solo para mejorar el rendimiento sino también para una transformación fundamental en la forma en que abordamos la gestión de datos y la capacitación de modelos.

Hoja de especificaciones del centro de datos NVMe KIOXIA XD7P serie E1.S

Este informe está patrocinado por KIOXIA America, Inc. Todos los puntos de vista y opiniones expresados ​​en este informe se basan en nuestra visión imparcial de los productos bajo consideración.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed