Inicio EmpresaAI Aumente la eficiencia de la IA con las enormes SSD NVMe de 61.44 TB de Solidigm

Aumente la eficiencia de la IA con las enormes SSD NVMe de 61.44 TB de Solidigm

by Jordan Ranous

En la era de la IA generativa, se han creado más datos que nunca. Solidigm ofrece una solución a muchos desafíos en la fábrica de IA moderna.

No es ningún secreto que nos encanta la enorme densidad de los SSD NVMe Solidigm U.61.44 de 2 TB. Hemos realizado numerosas pruebas de resistencia y rendimiento, realizado descubrimientos científicos y llevado los cálculos de récords mundiales a alturas nuevas y extraordinarias. Entonces, con la moda de la IA aumentando a un ritmo vertiginoso a nuestro alrededor, el siguiente paso lógico fue ver cómo las unidades Solidigm NVMe se comparan en el dinámico mundo de la IA 2024.

Comprender los beneficios de la densidad de almacenamiento extrema

Los SSD QLC de 61.44 TB de Solidigm destacan por su notable capacidad de almacenamiento, lo que permite a los centros de datos empaquetar más almacenamiento en menos unidades. Esta densidad extrema es especialmente ventajosa en los servidores de IA, donde los conjuntos de datos están creciendo exponencialmente y las soluciones de almacenamiento eficientes son primordiales. Al utilizar estos SSD de alta capacidad, los centros de datos pueden reducir la cantidad de unidades físicas, disminuir el espacio físico, reducir el consumo de energía y simplificar el mantenimiento.

Vista frontal del Lenovo ThinkSystem SR675 V3 que muestra Solidigm SSD

Carriles PCIe limitados en servidores GPU

Uno de los principales desafíos en los servidores GPU modernos es la cantidad limitada de carriles PCIe disponibles después de que las GPU obtienen su parte. Las GPU, fundamentales para las cargas de trabajo de IA, requieren un ancho de banda PCIe sustancial, lo que a menudo deja carriles limitados para otros componentes, incluidos los dispositivos de almacenamiento y las redes. Esta restricción hace que sea esencial optimizar el uso de los carriles PCIe disponibles. Los SSD QLC de 61.44 TB de Solidigm ofrecen una solución al proporcionar una capacidad de almacenamiento masiva en una sola unidad, reducir la necesidad de múltiples unidades y conservar carriles PCIe para GPU y otros componentes esenciales.

Vista interna superior del gabinete de la unidad Lenovo ThinkSystem SR675 V3

Cargas de trabajo de IA y requisitos de almacenamiento

Las cargas de trabajo de IA se pueden clasificar en términos generales en tres fases: preparación de datos, capacitación y ajuste, e inferencia. Cada fase tiene requisitos de almacenamiento únicos y los SSD de alta capacidad de Solidigm pueden mejorar significativamente el rendimiento y la eficiencia en estas fases. La implementación de unidades QLC de alta capacidad, como Solidigm D5-P5336, beneficia a todas las cargas de trabajo de IA. La mayoría de los beneficios van desde la preparación de datos hasta la capacitación y el ajuste hasta la inferencia.

Preparación de datos

La preparación de datos es la base de cualquier proyecto de IA e implica la recopilación, limpieza, transformación y aumento de datos. Esta fase requiere un almacenamiento extenso ya que los conjuntos de datos sin procesar pueden ser enormes. Los SSD QLC de 61.44 TB de Solidigm pueden almacenar una gran cantidad de datos sin procesar sin comprometer el rendimiento. Además, las altas velocidades de lectura y escritura secuencial de estos SSD garantizan un acceso rápido a los datos, acelerando el proceso de preparación. Para la preparación de datos, los SSD Soidigm QLC de 61.44 TB cumplen con todas las demandas descritas anteriormente con beneficios como:

  • Capacidad de almacenamiento masiva: Manejo eficiente de grandes conjuntos de datos.
  • Altas velocidades secuenciales: Acceso y procesamiento rápido de datos.
  • Latencia reducida: Retrasos minimizados en la recuperación de datos, mejorando la eficiencia del flujo de trabajo.

Entrenamiento y puesta a punto

El entrenamiento de modelos de IA es un proceso intensivo que implica introducir extensos conjuntos de datos en redes neuronales para ajustar pesos y sesgos. Esta fase es exigente desde el punto de vista computacional y requiere altas IOPS (operaciones de entrada/salida por segundo) y almacenamiento de baja latencia para mantenerse al día con los rápidos intercambios de datos entre el almacenamiento y las GPU. Los SSD de Solidigm destacan en este sentido y ofrecen alto rendimiento y durabilidad. La densidad extrema de estos SSD permite utilizar conjuntos de datos más extensos en el entrenamiento, lo que potencialmente conduce a modelos más precisos. Para satisfacer las demandas de capacitación y ajuste, los SSD Solidigm ofrecen lo siguiente:

  • IOPS altas: Admite intercambios rápidos de datos esenciales para la formación.
  • Durabilidad: Tecnología QLC optimizada para cargas de trabajo intensas de lectura/escritura, ideal para ciclos de formación repetidos.
  • Escalabilidad: Amplíe el almacenamiento sin agregar unidades físicas, manteniendo el uso eficiente de los carriles PCIe.

Inferencia

Una vez entrenados, los modelos de IA se implementan para hacer predicciones o decisiones basadas en nuevos datos, lo que se conoce como inferencia. Esta fase a menudo requiere un acceso rápido a datos preprocesados ​​y un manejo eficiente de mayores solicitudes de lectura. Los SSD QLC de 61.44 TB de Solidigm brindan el rendimiento de lectura necesario y la baja latencia para garantizar que las operaciones de inferencia se lleven a cabo sin problemas y rápidamente. Los SSD Solidigm superan el rendimiento y la baja latencia al ofrecer los siguientes beneficios:

  • Rendimiento de lectura rápida: Garantiza un acceso rápido a los datos para realizar inferencias en tiempo real.
  • Baja latencia: Crítico para aplicaciones que requieren respuestas inmediatas.
  • Alta capacidad: Almacene datos de inferencia extensos y resultados históricos de manera eficiente.

La tecnología QLC ofrece importantes beneficios para aplicaciones de inferencia, incluida una alta capacidad de almacenamiento, rentabilidad, velocidades de lectura rápidas, utilización eficiente de PCIe, durabilidad y eficiencia mejorada del flujo de trabajo. Estas ventajas en conjunto mejoran el rendimiento, la escalabilidad y la rentabilidad de las tareas de inferencia, lo que convierte a las unidades QLC en una opción ideal para implementaciones modernas de inteligencia artificial y aprendizaje automático.

¿Por qué es importante conseguir un almacenamiento grande lo más cerca posible de la GPU?

Para la IA y el aprendizaje automático, la proximidad del almacenamiento a la GPU puede afectar significativamente el rendimiento. El diseño de un centro de datos de IA requiere una cuidadosa consideración de múltiples factores para garantizar una funcionalidad y eficiencia óptimas. Por eso es fundamental contar con un almacenamiento amplio que esté lo más cerca posible de la GPU. Como exploramos recientemente, el acceso a una importante solución de almacenamiento conectado a la red está empezando a convertirse en una herramienta única, pero depender únicamente de ella puede no ser siempre la opción óptima.

Latencia y ancho de banda

Una razón principal para colocar un amplio almacenamiento cerca de la GPU es minimizar la latencia y maximizar el ancho de banda. Las cargas de trabajo de IA, particularmente durante el entrenamiento, implican transferencias de datos frecuentes y masivas entre el almacenamiento y la GPU. La alta latencia puede obstaculizar todo el proceso, ralentizar los tiempos de entrenamiento y reducir la eficiencia.

En las cargas de trabajo de IA, donde la rápida disponibilidad de datos es fundamental, la baja latencia garantiza que las GPU reciban los datos rápidamente, lo que reduce los tiempos de inactividad y mejora la eficiencia computacional general. Durante la fase de entrenamiento, es necesario introducir continuamente grandes volúmenes de datos en la GPU para su procesamiento. Al minimizar la latencia, DAS garantiza que se cumplan las demandas de alta velocidad de las aplicaciones de IA, lo que lleva a tiempos de capacitación más rápidos y flujos de trabajo más eficientes.

Vista interna de las GPU Lenovo ThinkSystem SR675 V3

Los SSD NVMe maximizan el potencial de la interfaz PCIe, proporcionando una transferencia de datos significativamente más rápida y evitando la infraestructura existente más lenta. Este gran ancho de banda es esencial para las cargas de trabajo de IA que requieren el movimiento rápido de grandes conjuntos de datos. Cuando el almacenamiento se conecta directamente, se maximiza el ancho de banda disponible para las GPU, lo que permite un acceso más rápido a la gran cantidad de datos necesarios para entrenar modelos complejos.

Por el contrario, el almacenamiento conectado a la red de instalaciones heredadas introduce capas adicionales de latencia y normalmente reduce el ancho de banda. Incluso con redes de alta velocidad, la sobrecarga asociada con los protocolos de red y la posible congestión de la red pueden impedir el rendimiento. Tener una capacidad masiva conectada directamente a su GPU permite preparar los datos para que no tengan que esperar para realizar el trabajo cuando la GPU comienza a funcionar.

Rendimiento de datos y rendimiento de E/S

Los SSD NVMe locales destacan en el manejo de una gran cantidad de operaciones de entrada/salida por segundo (IOPS), lo cual es crucial para la naturaleza intensiva de lectura/escritura de las cargas de trabajo de IA. Durante la fase de capacitación, los modelos de IA requieren un acceso rápido a vastos repositorios de datos, lo que requiere soluciones de almacenamiento que puedan satisfacer la gran demanda de transacciones de datos.

Vista en ángulo superior de las GPU NVIDIA L40S

El Solidigm D5-P5336, diseñado para escenarios de alta capacidad y alto rendimiento, ofrece IOPS excepcionales, lo que permite procesos de escritura y recuperación de datos más rápidos. Esta capacidad garantiza que las GPU permanezcan ocupadas con el cálculo en lugar de esperar datos, maximizando así la eficiencia y reduciendo los tiempos de entrenamiento. El alto rendimiento de IOPS de los SSD NVMe locales los hace ideales para los entornos exigentes de aplicaciones de IA, donde el acceso y el procesamiento rápidos de datos son esenciales para un rendimiento óptimo.

Gestión de datos

Si bien en algunos escenarios, tener un amplio almacenamiento conectado directamente a la GPU simplifica la administración de datos, esto agrega una capa necesaria de administración de datos para almacenar los datos en el servidor de la GPU. En un mundo perfecto, su GPU está ocupada trabajando y su CPU sale a la red para guardar puntos de control o generar nuevos datos. Las unidades Solidigm de 61.44 TB ayudan a reducir la cantidad de transacciones de datos necesarias. También puede solucionar esto mediante una configuración de red simplificada y sistemas de archivos distribuidos. Este enfoque sencillo puede optimizar los flujos de trabajo y reducir la posibilidad de errores o retrasos relacionados con los datos.

Vista frontal del Lenovo ThinkSystem SR675 V3

Suponga que está trabajando dentro de un único servidor, ajustando modelos que caben en un puñado de GPU conectadas localmente. En ese caso, tiene la ventaja del almacenamiento local, que es más sencillo de configurar y administrar que las soluciones de almacenamiento en red. Configurar, administrar y mantener el almacenamiento conectado a la red puede ser complejo y llevar mucho tiempo, y a menudo requiere conocimientos especializados e infraestructura adicional. Por el contrario, las soluciones de almacenamiento local como las SSD NVMe son más sencillas de integrar en las configuraciones de servidores existentes.

Esquema del Lenovo ThinkSystem SR675 V3

Esta simplicidad en la configuración y el mantenimiento permite a los equipos de TI centrarse más en optimizar las cargas de trabajo de IA en lugar de lidiar con las complejidades de la gestión del almacenamiento en red. Como resultado, implementar y administrar el almacenamiento para aplicaciones de IA se vuelve más sencillo y eficiente con los SSD NVMe locales.

Costo y escalabilidad

Si bien las soluciones NAS pueden escalar horizontalmente agregando más dispositivos de almacenamiento, también conllevan costos relacionados con la infraestructura de red y posibles cuellos de botella en el rendimiento. Por el contrario, invertir en almacenamiento local de alta capacidad puede proporcionar beneficios de rendimiento inmediatos sin necesidad de grandes actualizaciones de la red.

Las soluciones de almacenamiento local suelen ser más rentables que los sistemas de almacenamiento conectados a la red (NAS) porque eliminan la necesidad de costosos hardware de red y configuraciones complejas. La configuración y el mantenimiento de NAS implican una inversión significativa en equipos de red, como conmutadores y enrutadores de alta velocidad, y costos continuos de mantenimiento y administración de la red.

Los SSD locales de gran capacidad integrados directamente en el servidor se utilizan como área de preparación, lo que reduce la necesidad de infraestructura adicional. Esta integración directa reduce los costos de hardware y simplifica el proceso de configuración, lo que lo hace más económico para las organizaciones que buscan optimizar sus cargas de trabajo de IA sin incurrir en gastos elevados.

Metodología de prueba

Para evaluar exhaustivamente el rendimiento de los SSD QLC Solidigm de 61.44 TB en una configuración de servidor de IA, compararemos una serie de cuatro SSD Solidigm P5336 de 61.44 TB instalados en un Lenovo ThinkSystem SR675 V3. Esta configuración de servidor también incluye un conjunto de cuatro GPU NVIDIA L40S. La herramienta de evaluación comparativa utilizada para este propósito es GDSIO, una utilidad especializada diseñada para medir el rendimiento del almacenamiento en entornos de almacenamiento directo por GPU (GDS). Analizamos dos configuraciones: una GPU para el rendimiento de una sola unidad y una GPU para cuatro unidades configuradas para RAID0.

Vista superior del Lenovo ThinkSystem SR675 V3 con cuatro GPU L40S

Quédate con nosotros. Las siguientes secciones cubren los detalles de las pruebas y cómo imitan las diferentes etapas del proceso de IA.

Parámetros de prueba

El proceso de evaluación comparativa implica varios parámetros de prueba que simulan diferentes etapas del proceso de IA. Estos parámetros incluyen io_sizes, threads y transfer_type, cada uno elegido para representar aspectos específicos de las cargas de trabajo de IA.

1. Tamaños de E/S:

  • 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Estos diferentes tamaños de E/S ayudan a simular diferentes patrones de transferencia de datos. Los tamaños de E/S más pequeños (128K, 256K, 512K) imitan escenarios en los que se accede con frecuencia a pequeños fragmentos de datos, lo cual es típico durante las etapas de preparación de datos. Los tamaños de E/S más grandes (1 M, 4 M, 16 M, 64 M, 128 M) representan transferencias de datos masivas que a menudo se observan durante las etapas de entrenamiento e inferencia, donde se mueven lotes de datos completos.

2. Hilos:

  • 1 4 16 32: El número de subprocesos representa el nivel de simultaneidad de acceso a los datos. Un solo subproceso prueba el rendimiento básico, mientras que un mayor número de subprocesos (4, 16, 32) simulan actividades de procesamiento de datos paralelos más intensivas, similar a lo que ocurre durante las sesiones de capacitación a gran escala donde se manejan múltiples flujos de datos simultáneamente.

3. Tipos de Transferencia:

  • Almacenamiento->GPU (GDS): Este tipo de transferencia aprovecha el almacenamiento directo de GPU (GDS), lo que permite transferencias de datos directas entre las SSD y las GPU, sin pasar por la CPU. Esta configuración es ideal para probar la eficiencia de las rutas de datos directas y minimizar la latencia, reflejando escenarios de inferencia en tiempo real.
  • Almacenamiento->CPU->GPU: Esta ruta tradicional de transferencia de datos implica mover datos desde el almacenamiento a la CPU antes de transferirlos a la GPU. Este método simula escenarios en los que podría producirse procesamiento intermedio o almacenamiento en caché a nivel de CPU, lo que se espera durante la fase de preparación de datos. Podríamos argumentar que esta ruta de datos representaría el rendimiento independientemente del proveedor de GPU.
  • Almacenamiento->PAGE_CACHE->CPU->GPU: Esta ruta utiliza el caché de página para las transferencias de datos, donde los datos primero se almacenan en caché en la memoria antes de ser procesados ​​por la CPU y luego transferidos a la GPU. Esta configuración es útil para probar el impacto de los mecanismos de almacenamiento en caché y el ancho de banda de la memoria en el rendimiento general, lo cual es pertinente durante el entrenamiento cuando los datos pueden procesarse previamente y almacenarse en caché para lograr eficiencia. Nuevamente, podríamos argumentar que esta ruta de datos representaría el rendimiento independientemente del proveedor de GPU.

Imitación de etapas de canalización de IA

Las pruebas comparativas están diseñadas para reflejar las diferentes etapas del proceso de IA, garantizando que las métricas de rendimiento obtenidas sean relevantes y completas.

Preparación de datos:

  • Tamaños de E/S: Más pequeño (128K, 256K, 512K)
  • Trapos: 1, 4
  • Tipos de transferencia: “Almacenamiento->CPU->GPU”, “Almacenamiento->PAGE_CACHE->CPU->GPU”
  • Finalidad: Evalúe cómo los SSD manejan pequeñas transferencias de datos frecuentes y la participación de la CPU, aspectos críticos durante las fases de ingesta, limpieza y aumento de datos.

Capacitación y puesta a punto:

  • Tamaños de E/S: Mediano a grande (1M, 4M, 16M)
  • Trapos: 4, 16, 32
  • Tipos de transferencia: “Almacenamiento->GPU (GDS)”, “Almacenamiento->CPU->GPU”
  • Finalidad: Evalúe el rendimiento en condiciones de alto rendimiento de datos con múltiples flujos de datos simultáneos, que representan el manejo intensivo de datos requerido durante el entrenamiento y el ajuste del modelo.

Inferencia:

  • Tamaños de E/S: Grande a muy grande (16M, 64M, 128M) y 4K
  • Trapos: 1, 4, 16
  • Tipos de transferencia: Almacenamiento->GPU (GDS)
  • Finalidad: Mida la eficiencia de las transferencias de datos directas a gran escala a la GPU, cruciales para aplicaciones de inferencia en tiempo real donde el acceso rápido a los datos y la latencia mínima son primordiales. 4K está diseñado para observar las búsquedas que se realizan en la base de datos RAG.

Al variar estos parámetros y probar diferentes configuraciones, podemos obtener un perfil de rendimiento detallado de los SSD QLC Solidigm de 61.44 TB en un entorno de servidor de IA de alto rendimiento, lo que proporciona información sobre su idoneidad y optimización para diversas cargas de trabajo de IA. Examinamos los datos realizando más de 1200 pruebas durante unas pocas semanas.

Configuración del servidor

Vista frontal del Lenovo ThinkSystem SR675 V3


Arquitectura Lenovo ThinkSystem SR675 V3

Resultados de referencia

Primero, veamos las cargas de trabajo de tipo entrenamiento e inferencia. El tamaño de GPU Direct 1024K IO representa la carga del modelo, la carga de datos de entrenamiento en la GPU y otros trabajos de inferencia por lotes grandes, como trabajos de imágenes o videos.

4Conducir Tipo de E / S Tipo de transferencia Temas Tamaño del conjunto de datos (KiB) Tamaño de E/S (KiB) Rendimiento (GiB/seg) Latencia promedio (usecs)
ESCRIBIR GPUD 8 777,375,744 1024 12.31 634.55
LEER GPUD 8 579,439,616 1024 9.30 840.37
ESCRIBIR GPUD 8 751,927,296 1024 12.04 648.67
RANDREAD GPUD 8 653,832,192 1024 10.50 743.89

A continuación, analizamos tamaños de E/S más pequeños, para una carga de trabajo de tipo RAG, por ejemplo, donde se accede rápidamente a datos aleatorios de 4k a una base de datos RAG almacenada en el disco. La E/S aleatoria eficiente es necesaria para escenarios en los que las cargas de trabajo de inferencia necesitan acceder a los datos de forma no secuencial, como con sistemas de recomendación o aplicaciones de búsqueda. La configuración RAID0 muestra un buen rendimiento para operaciones secuenciales y aleatorias, lo cual es crucial para aplicaciones de IA que involucran una combinación de patrones de acceso como RAG. Los valores de latencia de lectura son notablemente bajos, especialmente en el GPUD modo.

Aquí se seleccionaron 8 subprocesos de trabajo, que no saturan completamente el SSD, pero brindan una instantánea más representativa de lo que puede encontrar en una carga de trabajo de tipo RAG. Esto proporciona un contexto de una aplicación lista para usar desde la perspectiva de la GPU con un número limitado de trabajos y una mayor profundidad de cola. Vale la pena señalar que esto muestra que queda más rendimiento sobre la mesa que se puede lograr mediante optimizaciones adicionales del software. .

4Conducir Tipo de E / S Tipo de transferencia Temas Tamaño del conjunto de datos (KiB) Tamaño de E/S (KiB) Rendimiento (GiB/seg) Latencia promedio (usecs)
ESCRIBIR GPUD 8 69,929,336 4 1.12 27.32
LEER GPUD 8 37,096,856 4 0.59 51.52
ESCRIBIR GPUD 8 57,083,336 4 0.91 33.42
RANDREAD GPUD 8 27,226,364 4 0.44 70.07

Si no usa GPU Direct debido a bibliotecas o GPU no compatibles, estos son esos dos tipos si utiliza la CPU en la transferencia de datos. En este servidor específico, el Lenovo ThinkSystem SR675 V3, dado que todos los dispositivos PCIe pasan por el complejo raíz de la CPU, vemos un ancho de banda comparable pero nuestra latencia se ve afectada. Podemos esperar una mejora en un sistema con Switches PCIe.

4Conducir Tipo de E / S Tipo de transferencia Temas Tamaño del conjunto de datos (KiB) Tamaño de E/S (KiB) Rendimiento (GiB/seg) Latencia promedio (usecs)
ESCRIBIR CPU_GPU 8 767,126,528 1024 12.24 638.05
LEER CPU_GPU 8 660,889,600 1024 10.58 738.75
ESCRIBIR CPU_GPU 8 752,763,904 1024 12.02 649.76
RANDREAD CPU_GPU 8 656,329,728 1024 10.47 746.26
ESCRIBIR CPU_GPU 8 69,498,220 4 1.11 27.47
LEER CPU_GPU 8 36,634,680 4 0.58 52.31

La tabla indica altas tasas de rendimiento para operaciones de lectura, particularmente con el GPUD tipo de transferencia. Por ejemplo, leer operaciones en GPUD El modo alcanza más de 10.5 GiB/seg. Esto beneficia las cargas de trabajo de IA, que a menudo requieren un acceso rápido a los datos para entrenar modelos grandes.

El rendimiento equilibrado entre operaciones aleatorias y secuenciales hace que esta configuración sea adecuada para tareas de inferencia, que a menudo requieren una combinación de estos patrones de acceso. Si bien los valores de latencia no son extremadamente bajos, aún se encuentran dentro de límites aceptables para muchas aplicaciones de inferencia.

Además, vemos tasas de rendimiento impresionantes, con operaciones de escritura que alcanzan hasta 12.31 GiB/s y operaciones de lectura de hasta 9.30 GiB/s. Este alto rendimiento beneficia las cargas de trabajo de IA que requieren un acceso rápido a los datos para el entrenamiento y la inferencia de modelos.

Lecturas secuenciales y optimización

Pasando a un tamaño de IO de 128 M e iterando a través de subprocesos de trabajo, podemos ver el resultado de optimizar una carga de trabajo para una solución de almacenamiento.

Tipo de transferencia Temas Rendimiento (GiB/s) Latencia (usec)
Almacenamiento->CPU->GPU 16 25.134916 79528.88255
Almacenamiento->CPU->GPU 4 25.134903 19887.66948
Almacenamiento->CPU->GPU 32 25.12613 159296.2804
Almacenamiento->GPU (GDS) 4 25.057484 19946.07198
Almacenamiento->GPU (GDS) 16 25.044871 79770.6007
Almacenamiento->GPU (GDS) 32 25.031055 159478.8246
Almacenamiento->PAGE_CACHE->CPU->GPU 16 24.493948 109958.4447
Almacenamiento->PAGE_CACHE->CPU->GPU 32 24.126103 291792.8345
Almacenamiento->GPU (GDS) 1 23.305366 5362.611458
Almacenamiento->PAGE_CACHE->CPU->GPU 4 21.906704 22815.52797
Almacenamiento->CPU->GPU 1 15.27233 8182.667969
Almacenamiento->PAGE_CACHE->CPU->GPU 1 6.016992 20760.22778

Escribir correctamente cualquier aplicación para interactuar con el almacenamiento es primordial y debe tenerse en cuenta ya que las empresas quieren maximizar su inversión en GPU.

GPU directo

Al aislar el rendimiento de GPU Direct únicamente en todas las pruebas, podemos tener una idea general de cómo brilla la tecnología NVIDIA.

Tipo de E / S Tipo de transferencia Temas Tamaño del conjunto de datos (KiB) Tamaño de E/S (KiB) Rendimiento (GiB/seg) Latencia promedio (usecs)
ESCRIBIR GPUD 8 777,375,744 1024 12.31 634.55
LEER GPUD 8 579,439,616 1024 9.30 840.37
ESCRIBIR GPUD 8 751,927,296 1024 12.04 648.67
RANDREAD GPUD 8 653,832,192 1024 10.50 743.89
ESCRIBIR GPUD 8 69,929,336 4 1.12 27.32
LEER GPUD 8 37,096,856 4 0.59 51.52
ESCRIBIR GPUD 8 8,522,752 4 0.14 224.05
RANDREAD GPUD 8 21,161,116 4 0.34 89.99
ESCRIBIR GPUD 8 57,083,336 4 0.91 33.42
RANDREAD GPUD 8 27,226,364 4 0.44 70.07

Pensamientos Finales

Dado que este artículo se centra en el Solidigm 61.44TB P5336, demos un paso atrás y abordemos el debate entre TLC y QLC sobre rendimiento y capacidad. Cuando miramos otros productos del portafolio de Solidigm, como la línea D7, que utiliza TLC 3D NAND, la capacidad es limitada a cambio de rendimiento. En nuestras pruebas, específicamente con las unidades Solidigm de 61.44 TB, estamos viendo un rendimiento agregado que puede mantener adecuadamente las GPU alimentadas con datos en latencias bajas. Estamos escuchando comentarios de ODM y OEM sobre la demanda de cada vez más almacenamiento lo más cerca posible de la GPU, y la unidad Solidigm D5-P5336 parece cumplir los requisitos. Dado que suele haber un número limitado de bahías NVMe disponibles en los servidores GPU, las densas unidades Solidigm están en la parte superior de la lista para el almacenamiento del servidor GPU local.

En última instancia, la enorme capacidad de almacenamiento que ofrecen estas unidades, junto con las GPU, es sólo una parte de la solución; todavía necesitan tener un buen desempeño. Una vez que agrega el rendimiento de una sola unidad en varias unidades, queda claro que hay suficiente rendimiento disponible incluso para las tareas más exigentes. En el caso de la configuración RAID4 de 0 unidades usando GDSIO, el rendimiento total para operaciones de escritura podría alcanzar hasta 12.31 GiB/seg, y para operaciones de lectura, podría alcanzar hasta 25.13 GiB/seg.

Vista trasera del Lenovo ThinkSystem SR675 V3 para GPU

Este nivel de rendimiento es más que suficiente incluso para las tareas de IA más exigentes, como entrenar grandes modelos de aprendizaje profundo en conjuntos de datos masivos o ejecutar inferencias en tiempo real en transmisiones de video de alta resolución. La capacidad de escalar el rendimiento agregando más unidades a la matriz RAID0 la convierte en una opción atractiva para aplicaciones de IA donde el acceso rápido y eficiente a los datos es crucial.

Sin embargo, es importante tener en cuenta que las configuraciones RAID0, si bien ofrecen un alto rendimiento, no proporcionan ninguna redundancia de datos. Por lo tanto, es esencial implementar estrategias adecuadas de copia de seguridad y protección de datos para evitar la pérdida de datos en caso de falla de la unidad.

Otra consideración única en los centros de datos actuales es la potencia. Dado que los servidores de IA consumen más energía que nunca y no muestran signos de desaceleración, la energía total disponible es uno de los mayores cuellos de botella para quienes buscan incorporar GPU a sus centros de datos. Esto significa que hay que centrarse aún más en ahorrar cada vatio posible. Si puede obtener más TB por vatio, abordamos algunos procesos de pensamiento interesantes en torno al TCO y los costos de infraestructura. Incluso sacar estas unidades del servidor GPU y colocarlas en un servidor de almacenamiento a escala de rack puede ofrecer un rendimiento masivo con capacidades extremas.

La integración de SSD QLC Solidigm D5-P5336 de 61.44 TB con servidores de IA con ranura NVMe limitada representa un avance significativo para abordar los desafíos de almacenamiento de las cargas de trabajo de IA modernas. Su extrema densidad, características de rendimiento y relación TB/vatio los hacen ideales para las fases de preparación, entrenamiento y ajuste de datos, e inferencia. Al optimizar el uso de carriles PCIe y proporcionar soluciones de almacenamiento de alta capacidad, estos SSD permiten que la AI Factory moderna se centre en desarrollar e implementar modelos más sofisticados y precisos, impulsando la innovación en todo el campo de la IA.

SSD Solidigm

Página de Lenovo ThinkSystem SR675 V3

Este informe está patrocinado por Solidigm. Todos los puntos de vista y opiniones expresados ​​en este informe se basan en nuestra visión imparcial de los productos bajo consideración.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed