En la era de la IA generativa, se han creado más datos que nunca. Solidigm ofrece una solución a muchos desafíos en la fábrica de IA moderna.
No es ningún secreto que nos encanta la enorme densidad de los SSD NVMe Solidigm U.61.44 de 2 TB. Hemos realizado numerosas pruebas de resistencia y rendimiento, realizado descubrimientos científicos y llevado los cálculos de récords mundiales a alturas nuevas y extraordinarias. Entonces, con la moda de la IA aumentando a un ritmo vertiginoso a nuestro alrededor, el siguiente paso lógico fue ver cómo las unidades Solidigm NVMe se comparan en el dinámico mundo de la IA 2024.
Comprender los beneficios de la densidad de almacenamiento extrema
Los SSD QLC de 61.44 TB de Solidigm destacan por su notable capacidad de almacenamiento, lo que permite a los centros de datos empaquetar más almacenamiento en menos unidades. Esta densidad extrema es especialmente ventajosa en los servidores de IA, donde los conjuntos de datos están creciendo exponencialmente y las soluciones de almacenamiento eficientes son primordiales. Al utilizar estos SSD de alta capacidad, los centros de datos pueden reducir la cantidad de unidades físicas, disminuir el espacio físico, reducir el consumo de energía y simplificar el mantenimiento.
Carriles PCIe limitados en servidores GPU
Uno de los principales desafíos en los servidores GPU modernos es la cantidad limitada de carriles PCIe disponibles después de que las GPU obtienen su parte. Las GPU, fundamentales para las cargas de trabajo de IA, requieren un ancho de banda PCIe sustancial, lo que a menudo deja carriles limitados para otros componentes, incluidos los dispositivos de almacenamiento y las redes. Esta restricción hace que sea esencial optimizar el uso de los carriles PCIe disponibles. Los SSD QLC de 61.44 TB de Solidigm ofrecen una solución al proporcionar una capacidad de almacenamiento masiva en una sola unidad, reducir la necesidad de múltiples unidades y conservar carriles PCIe para GPU y otros componentes esenciales.
Cargas de trabajo de IA y requisitos de almacenamiento
Las cargas de trabajo de IA se pueden clasificar en términos generales en tres fases: preparación de datos, capacitación y ajuste, e inferencia. Cada fase tiene requisitos de almacenamiento únicos y los SSD de alta capacidad de Solidigm pueden mejorar significativamente el rendimiento y la eficiencia en estas fases. La implementación de unidades QLC de alta capacidad, como Solidigm D5-P5336, beneficia a todas las cargas de trabajo de IA. La mayoría de los beneficios van desde la preparación de datos hasta la capacitación y el ajuste hasta la inferencia.
Preparación de datos
La preparación de datos es la base de cualquier proyecto de IA e implica la recopilación, limpieza, transformación y aumento de datos. Esta fase requiere un almacenamiento extenso ya que los conjuntos de datos sin procesar pueden ser enormes. Los SSD QLC de 61.44 TB de Solidigm pueden almacenar una gran cantidad de datos sin procesar sin comprometer el rendimiento. Además, las altas velocidades de lectura y escritura secuencial de estos SSD garantizan un acceso rápido a los datos, acelerando el proceso de preparación. Para la preparación de datos, los SSD Soidigm QLC de 61.44 TB cumplen con todas las demandas descritas anteriormente con beneficios como:
- Capacidad de almacenamiento masiva: Manejo eficiente de grandes conjuntos de datos.
- Altas velocidades secuenciales: Acceso y procesamiento rápido de datos.
- Latencia reducida: Retrasos minimizados en la recuperación de datos, mejorando la eficiencia del flujo de trabajo.
Entrenamiento y puesta a punto
El entrenamiento de modelos de IA es un proceso intensivo que implica introducir extensos conjuntos de datos en redes neuronales para ajustar pesos y sesgos. Esta fase es exigente desde el punto de vista computacional y requiere altas IOPS (operaciones de entrada/salida por segundo) y almacenamiento de baja latencia para mantenerse al día con los rápidos intercambios de datos entre el almacenamiento y las GPU. Los SSD de Solidigm destacan en este sentido y ofrecen alto rendimiento y durabilidad. La densidad extrema de estos SSD permite utilizar conjuntos de datos más extensos en el entrenamiento, lo que potencialmente conduce a modelos más precisos. Para satisfacer las demandas de capacitación y ajuste, los SSD Solidigm ofrecen lo siguiente:
- IOPS altas: Admite intercambios rápidos de datos esenciales para la formación.
- Durabilidad: Tecnología QLC optimizada para cargas de trabajo intensas de lectura/escritura, ideal para ciclos de formación repetidos.
- Escalabilidad: Amplíe el almacenamiento sin agregar unidades físicas, manteniendo el uso eficiente de los carriles PCIe.
Inferencia
Una vez entrenados, los modelos de IA se implementan para hacer predicciones o decisiones basadas en nuevos datos, lo que se conoce como inferencia. Esta fase a menudo requiere un acceso rápido a datos preprocesados y un manejo eficiente de mayores solicitudes de lectura. Los SSD QLC de 61.44 TB de Solidigm brindan el rendimiento de lectura necesario y la baja latencia para garantizar que las operaciones de inferencia se lleven a cabo sin problemas y rápidamente. Los SSD Solidigm superan el rendimiento y la baja latencia al ofrecer los siguientes beneficios:
- Rendimiento de lectura rápida: Garantiza un acceso rápido a los datos para realizar inferencias en tiempo real.
- Baja latencia: Crítico para aplicaciones que requieren respuestas inmediatas.
- Alta capacidad: Almacene datos de inferencia extensos y resultados históricos de manera eficiente.
La tecnología QLC ofrece importantes beneficios para aplicaciones de inferencia, incluida una alta capacidad de almacenamiento, rentabilidad, velocidades de lectura rápidas, utilización eficiente de PCIe, durabilidad y eficiencia mejorada del flujo de trabajo. Estas ventajas en conjunto mejoran el rendimiento, la escalabilidad y la rentabilidad de las tareas de inferencia, lo que convierte a las unidades QLC en una opción ideal para implementaciones modernas de inteligencia artificial y aprendizaje automático.
¿Por qué es importante conseguir un almacenamiento grande lo más cerca posible de la GPU?
Para la IA y el aprendizaje automático, la proximidad del almacenamiento a la GPU puede afectar significativamente el rendimiento. El diseño de un centro de datos de IA requiere una cuidadosa consideración de múltiples factores para garantizar una funcionalidad y eficiencia óptimas. Por eso es fundamental contar con un almacenamiento amplio que esté lo más cerca posible de la GPU. Como exploramos recientemente, el acceso a una importante solución de almacenamiento conectado a la red está empezando a convertirse en una herramienta única, pero depender únicamente de ella puede no ser siempre la opción óptima.
Latencia y ancho de banda
Una razón principal para colocar un amplio almacenamiento cerca de la GPU es minimizar la latencia y maximizar el ancho de banda. Las cargas de trabajo de IA, particularmente durante el entrenamiento, implican transferencias de datos frecuentes y masivas entre el almacenamiento y la GPU. La alta latencia puede obstaculizar todo el proceso, ralentizar los tiempos de entrenamiento y reducir la eficiencia.
En las cargas de trabajo de IA, donde la rápida disponibilidad de datos es fundamental, la baja latencia garantiza que las GPU reciban los datos rápidamente, lo que reduce los tiempos de inactividad y mejora la eficiencia computacional general. Durante la fase de entrenamiento, es necesario introducir continuamente grandes volúmenes de datos en la GPU para su procesamiento. Al minimizar la latencia, DAS garantiza que se cumplan las demandas de alta velocidad de las aplicaciones de IA, lo que lleva a tiempos de capacitación más rápidos y flujos de trabajo más eficientes.
Rendimiento de datos y rendimiento de E/S
Los SSD NVMe locales destacan en el manejo de una gran cantidad de operaciones de entrada/salida por segundo (IOPS), lo cual es crucial para la naturaleza intensiva de lectura/escritura de las cargas de trabajo de IA. Durante la fase de capacitación, los modelos de IA requieren un acceso rápido a vastos repositorios de datos, lo que requiere soluciones de almacenamiento que puedan satisfacer la gran demanda de transacciones de datos.
El Solidigm D5-P5336, diseñado para escenarios de alta capacidad y alto rendimiento, ofrece IOPS excepcionales, lo que permite procesos de escritura y recuperación de datos más rápidos. Esta capacidad garantiza que las GPU permanezcan ocupadas con el cálculo en lugar de esperar datos, maximizando así la eficiencia y reduciendo los tiempos de entrenamiento. El alto rendimiento de IOPS de los SSD NVMe locales los hace ideales para los entornos exigentes de aplicaciones de IA, donde el acceso y el procesamiento rápidos de datos son esenciales para un rendimiento óptimo.
Gestión de datos
Si bien en algunos escenarios, tener un amplio almacenamiento conectado directamente a la GPU simplifica la administración de datos, esto agrega una capa necesaria de administración de datos para almacenar los datos en el servidor de la GPU. En un mundo perfecto, su GPU está ocupada trabajando y su CPU sale a la red para guardar puntos de control o generar nuevos datos. Las unidades Solidigm de 61.44 TB ayudan a reducir la cantidad de transacciones de datos necesarias. También puede solucionar esto mediante una configuración de red simplificada y sistemas de archivos distribuidos. Este enfoque sencillo puede optimizar los flujos de trabajo y reducir la posibilidad de errores o retrasos relacionados con los datos.
Suponga que está trabajando dentro de un único servidor, ajustando modelos que caben en un puñado de GPU conectadas localmente. En ese caso, tiene la ventaja del almacenamiento local, que es más sencillo de configurar y administrar que las soluciones de almacenamiento en red. Configurar, administrar y mantener el almacenamiento conectado a la red puede ser complejo y llevar mucho tiempo, y a menudo requiere conocimientos especializados e infraestructura adicional. Por el contrario, las soluciones de almacenamiento local como las SSD NVMe son más sencillas de integrar en las configuraciones de servidores existentes.
Esta simplicidad en la configuración y el mantenimiento permite a los equipos de TI centrarse más en optimizar las cargas de trabajo de IA en lugar de lidiar con las complejidades de la gestión del almacenamiento en red. Como resultado, implementar y administrar el almacenamiento para aplicaciones de IA se vuelve más sencillo y eficiente con los SSD NVMe locales.
Costo y escalabilidad
Si bien las soluciones NAS pueden escalar horizontalmente agregando más dispositivos de almacenamiento, también conllevan costos relacionados con la infraestructura de red y posibles cuellos de botella en el rendimiento. Por el contrario, invertir en almacenamiento local de alta capacidad puede proporcionar beneficios de rendimiento inmediatos sin necesidad de grandes actualizaciones de la red.
Las soluciones de almacenamiento local suelen ser más rentables que los sistemas de almacenamiento conectados a la red (NAS) porque eliminan la necesidad de costosos hardware de red y configuraciones complejas. La configuración y el mantenimiento de NAS implican una inversión significativa en equipos de red, como conmutadores y enrutadores de alta velocidad, y costos continuos de mantenimiento y administración de la red.
Los SSD locales de gran capacidad integrados directamente en el servidor se utilizan como área de preparación, lo que reduce la necesidad de infraestructura adicional. Esta integración directa reduce los costos de hardware y simplifica el proceso de configuración, lo que lo hace más económico para las organizaciones que buscan optimizar sus cargas de trabajo de IA sin incurrir en gastos elevados.
Para evaluar exhaustivamente el rendimiento de los SSD QLC Solidigm de 61.44 TB en una configuración de servidor de IA, compararemos una serie de cuatro SSD Solidigm P5336 de 61.44 TB instalados en un Lenovo ThinkSystem SR675 V3. Esta configuración de servidor también incluye un conjunto de cuatro GPU NVIDIA L40S. La herramienta de evaluación comparativa utilizada para este propósito es GDSIO, una utilidad especializada diseñada para medir el rendimiento del almacenamiento en entornos de almacenamiento directo por GPU (GDS). Analizamos dos configuraciones: una GPU para el rendimiento de una sola unidad y una GPU para cuatro unidades configuradas para RAID0.
Quédate con nosotros. Las siguientes secciones cubren los detalles de las pruebas y cómo imitan las diferentes etapas del proceso de IA.
Parámetros de prueba
El proceso de evaluación comparativa implica varios parámetros de prueba que simulan diferentes etapas del proceso de IA. Estos parámetros incluyen io_sizes, threads y transfer_type, cada uno elegido para representar aspectos específicos de las cargas de trabajo de IA.
1. Tamaños de E/S:
- 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Estos diferentes tamaños de E/S ayudan a simular diferentes patrones de transferencia de datos. Los tamaños de E/S más pequeños (128K, 256K, 512K) imitan escenarios en los que se accede con frecuencia a pequeños fragmentos de datos, lo cual es típico durante las etapas de preparación de datos. Los tamaños de E/S más grandes (1 M, 4 M, 16 M, 64 M, 128 M) representan transferencias de datos masivas que a menudo se observan durante las etapas de entrenamiento e inferencia, donde se mueven lotes de datos completos.
2. Hilos:
- 1 4 16 32: El número de subprocesos representa el nivel de simultaneidad de acceso a los datos. Un solo subproceso prueba el rendimiento básico, mientras que un mayor número de subprocesos (4, 16, 32) simulan actividades de procesamiento de datos paralelos más intensivas, similar a lo que ocurre durante las sesiones de capacitación a gran escala donde se manejan múltiples flujos de datos simultáneamente.
3. Tipos de Transferencia:
- Almacenamiento->GPU (GDS): Este tipo de transferencia aprovecha el almacenamiento directo de GPU (GDS), lo que permite transferencias de datos directas entre las SSD y las GPU, sin pasar por la CPU. Esta configuración es ideal para probar la eficiencia de las rutas de datos directas y minimizar la latencia, reflejando escenarios de inferencia en tiempo real.
- Almacenamiento->CPU->GPU: Esta ruta tradicional de transferencia de datos implica mover datos desde el almacenamiento a la CPU antes de transferirlos a la GPU. Este método simula escenarios en los que podría producirse procesamiento intermedio o almacenamiento en caché a nivel de CPU, lo que se espera durante la fase de preparación de datos. Podríamos argumentar que esta ruta de datos representaría el rendimiento independientemente del proveedor de GPU.
- Almacenamiento->PAGE_CACHE->CPU->GPU: Esta ruta utiliza el caché de página para las transferencias de datos, donde los datos primero se almacenan en caché en la memoria antes de ser procesados por la CPU y luego transferidos a la GPU. Esta configuración es útil para probar el impacto de los mecanismos de almacenamiento en caché y el ancho de banda de la memoria en el rendimiento general, lo cual es pertinente durante el entrenamiento cuando los datos pueden procesarse previamente y almacenarse en caché para lograr eficiencia. Nuevamente, podríamos argumentar que esta ruta de datos representaría el rendimiento independientemente del proveedor de GPU.
Imitación de etapas de canalización de IA
Las pruebas comparativas están diseñadas para reflejar las diferentes etapas del proceso de IA, garantizando que las métricas de rendimiento obtenidas sean relevantes y completas.
Preparación de datos:
- Tamaños de E/S: Más pequeño (128K, 256K, 512K)
- Trapos: 1, 4
- Tipos de transferencia: “Almacenamiento->CPU->GPU”, “Almacenamiento->PAGE_CACHE->CPU->GPU”
- Finalidad: Evalúe cómo los SSD manejan pequeñas transferencias de datos frecuentes y la participación de la CPU, aspectos críticos durante las fases de ingesta, limpieza y aumento de datos.
Capacitación y puesta a punto:
- Tamaños de E/S: Mediano a grande (1M, 4M, 16M)
- Trapos: 4, 16, 32
- Tipos de transferencia: “Almacenamiento->GPU (GDS)”, “Almacenamiento->CPU->GPU”
- Finalidad: Evalúe el rendimiento en condiciones de alto rendimiento de datos con múltiples flujos de datos simultáneos, que representan el manejo intensivo de datos requerido durante el entrenamiento y el ajuste del modelo.
Inferencia:
- Tamaños de E/S: Grande a muy grande (16M, 64M, 128M) y 4K
- Trapos: 1, 4, 16
- Tipos de transferencia: Almacenamiento->GPU (GDS)
- Finalidad: Mida la eficiencia de las transferencias de datos directas a gran escala a la GPU, cruciales para aplicaciones de inferencia en tiempo real donde el acceso rápido a los datos y la latencia mínima son primordiales. 4K está diseñado para observar las búsquedas que se realizan en la base de datos RAG.
Al variar estos parámetros y probar diferentes configuraciones, podemos obtener un perfil de rendimiento detallado de los SSD QLC Solidigm de 61.44 TB en un entorno de servidor de IA de alto rendimiento, lo que proporciona información sobre su idoneidad y optimización para diversas cargas de trabajo de IA. Examinamos los datos realizando más de 1200 pruebas durante unas pocas semanas.
Configuración del servidor
- Lenovo Think System SR675 V3
- Procesador AMD EPYC 9254 de 24 núcleos
- 6 x 64 GB DDR5 384 GB de capacidad total
- 4 GPU NVIDIA L40S
- 4 unidades SSD NVMe Solidigm P61.44 QLC de 5336 TB
- Ubuntu Server 22.04
- Versión del controlador NVIDIA: 535.171.04
- Versión CUDA: 12.2
Resultados de referencia
Primero, veamos las cargas de trabajo de tipo entrenamiento e inferencia. El tamaño de GPU Direct 1024K IO representa la carga del modelo, la carga de datos de entrenamiento en la GPU y otros trabajos de inferencia por lotes grandes, como trabajos de imágenes o videos.
4Conducir | Tipo de E / S | Tipo de transferencia | Temas | Tamaño del conjunto de datos (KiB) | Tamaño de E/S (KiB) | Rendimiento (GiB/seg) | Latencia promedio (usecs) |
---|---|---|---|---|---|---|---|
ESCRIBIR | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 | |
LEER | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 | |
ESCRIBIR | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 | |
RANDREAD | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
A continuación, analizamos tamaños de E/S más pequeños, para una carga de trabajo de tipo RAG, por ejemplo, donde se accede rápidamente a datos aleatorios de 4k a una base de datos RAG almacenada en el disco. La E/S aleatoria eficiente es necesaria para escenarios en los que las cargas de trabajo de inferencia necesitan acceder a los datos de forma no secuencial, como con sistemas de recomendación o aplicaciones de búsqueda. La configuración RAID0 muestra un buen rendimiento para operaciones secuenciales y aleatorias, lo cual es crucial para aplicaciones de IA que involucran una combinación de patrones de acceso como RAG. Los valores de latencia de lectura son notablemente bajos, especialmente en el GPUD
modo.
Aquí se seleccionaron 8 subprocesos de trabajo, que no saturan completamente el SSD, pero brindan una instantánea más representativa de lo que puede encontrar en una carga de trabajo de tipo RAG. Esto proporciona un contexto de una aplicación lista para usar desde la perspectiva de la GPU con un número limitado de trabajos y una mayor profundidad de cola. Vale la pena señalar que esto muestra que queda más rendimiento sobre la mesa que se puede lograr mediante optimizaciones adicionales del software. .
4Conducir | Tipo de E / S | Tipo de transferencia | Temas | Tamaño del conjunto de datos (KiB) | Tamaño de E/S (KiB) | Rendimiento (GiB/seg) | Latencia promedio (usecs) |
---|---|---|---|---|---|---|---|
ESCRIBIR | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 | |
LEER | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 | |
ESCRIBIR | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 | |
RANDREAD | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Si no usa GPU Direct debido a bibliotecas o GPU no compatibles, estos son esos dos tipos si utiliza la CPU en la transferencia de datos. En este servidor específico, el Lenovo ThinkSystem SR675 V3, dado que todos los dispositivos PCIe pasan por el complejo raíz de la CPU, vemos un ancho de banda comparable pero nuestra latencia se ve afectada. Podemos esperar una mejora en un sistema con Switches PCIe.
4Conducir | Tipo de E / S | Tipo de transferencia | Temas | Tamaño del conjunto de datos (KiB) | Tamaño de E/S (KiB) | Rendimiento (GiB/seg) | Latencia promedio (usecs) |
---|---|---|---|---|---|---|---|
ESCRIBIR | CPU_GPU | 8 | 767,126,528 | 1024 | 12.24 | 638.05 | |
LEER | CPU_GPU | 8 | 660,889,600 | 1024 | 10.58 | 738.75 | |
ESCRIBIR | CPU_GPU | 8 | 752,763,904 | 1024 | 12.02 | 649.76 | |
RANDREAD | CPU_GPU | 8 | 656,329,728 | 1024 | 10.47 | 746.26 | |
ESCRIBIR | CPU_GPU | 8 | 69,498,220 | 4 | 1.11 | 27.47 | |
LEER | CPU_GPU | 8 | 36,634,680 | 4 | 0.58 | 52.31 |
La tabla indica altas tasas de rendimiento para operaciones de lectura, particularmente con el GPUD
tipo de transferencia. Por ejemplo, leer operaciones en GPUD
El modo alcanza más de 10.5 GiB/seg. Esto beneficia las cargas de trabajo de IA, que a menudo requieren un acceso rápido a los datos para entrenar modelos grandes.
El rendimiento equilibrado entre operaciones aleatorias y secuenciales hace que esta configuración sea adecuada para tareas de inferencia, que a menudo requieren una combinación de estos patrones de acceso. Si bien los valores de latencia no son extremadamente bajos, aún se encuentran dentro de límites aceptables para muchas aplicaciones de inferencia.
Además, vemos tasas de rendimiento impresionantes, con operaciones de escritura que alcanzan hasta 12.31 GiB/s y operaciones de lectura de hasta 9.30 GiB/s. Este alto rendimiento beneficia las cargas de trabajo de IA que requieren un acceso rápido a los datos para el entrenamiento y la inferencia de modelos.
Lecturas secuenciales y optimización
Pasando a un tamaño de IO de 128 M e iterando a través de subprocesos de trabajo, podemos ver el resultado de optimizar una carga de trabajo para una solución de almacenamiento.
Tipo de transferencia | Temas | Rendimiento (GiB/s) | Latencia (usec) |
---|---|---|---|
Almacenamiento->CPU->GPU | 16 | 25.134916 | 79528.88255 |
Almacenamiento->CPU->GPU | 4 | 25.134903 | 19887.66948 |
Almacenamiento->CPU->GPU | 32 | 25.12613 | 159296.2804 |
Almacenamiento->GPU (GDS) | 4 | 25.057484 | 19946.07198 |
Almacenamiento->GPU (GDS) | 16 | 25.044871 | 79770.6007 |
Almacenamiento->GPU (GDS) | 32 | 25.031055 | 159478.8246 |
Almacenamiento->PAGE_CACHE->CPU->GPU | 16 | 24.493948 | 109958.4447 |
Almacenamiento->PAGE_CACHE->CPU->GPU | 32 | 24.126103 | 291792.8345 |
Almacenamiento->GPU (GDS) | 1 | 23.305366 | 5362.611458 |
Almacenamiento->PAGE_CACHE->CPU->GPU | 4 | 21.906704 | 22815.52797 |
Almacenamiento->CPU->GPU | 1 | 15.27233 | 8182.667969 |
Almacenamiento->PAGE_CACHE->CPU->GPU | 1 | 6.016992 | 20760.22778 |
Escribir correctamente cualquier aplicación para interactuar con el almacenamiento es primordial y debe tenerse en cuenta ya que las empresas quieren maximizar su inversión en GPU.
GPU directo
Al aislar el rendimiento de GPU Direct únicamente en todas las pruebas, podemos tener una idea general de cómo brilla la tecnología NVIDIA.
Tipo de E / S | Tipo de transferencia | Temas | Tamaño del conjunto de datos (KiB) | Tamaño de E/S (KiB) | Rendimiento (GiB/seg) | Latencia promedio (usecs) |
---|---|---|---|---|---|---|
ESCRIBIR | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 |
LEER | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 |
ESCRIBIR | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 |
RANDREAD | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
ESCRIBIR | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 |
LEER | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 |
ESCRIBIR | GPUD | 8 | 8,522,752 | 4 | 0.14 | 224.05 |
RANDREAD | GPUD | 8 | 21,161,116 | 4 | 0.34 | 89.99 |
ESCRIBIR | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 |
RANDREAD | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Pensamientos Finales
Dado que este artículo se centra en el Solidigm 61.44TB P5336, demos un paso atrás y abordemos el debate entre TLC y QLC sobre rendimiento y capacidad. Cuando miramos otros productos del portafolio de Solidigm, como la línea D7, que utiliza TLC 3D NAND, la capacidad es limitada a cambio de rendimiento. En nuestras pruebas, específicamente con las unidades Solidigm de 61.44 TB, estamos viendo un rendimiento agregado que puede mantener adecuadamente las GPU alimentadas con datos en latencias bajas. Estamos escuchando comentarios de ODM y OEM sobre la demanda de cada vez más almacenamiento lo más cerca posible de la GPU, y la unidad Solidigm D5-P5336 parece cumplir los requisitos. Dado que suele haber un número limitado de bahías NVMe disponibles en los servidores GPU, las densas unidades Solidigm están en la parte superior de la lista para el almacenamiento del servidor GPU local.
En última instancia, la enorme capacidad de almacenamiento que ofrecen estas unidades, junto con las GPU, es sólo una parte de la solución; todavía necesitan tener un buen desempeño. Una vez que agrega el rendimiento de una sola unidad en varias unidades, queda claro que hay suficiente rendimiento disponible incluso para las tareas más exigentes. En el caso de la configuración RAID4 de 0 unidades usando GDSIO, el rendimiento total para operaciones de escritura podría alcanzar hasta 12.31 GiB/seg, y para operaciones de lectura, podría alcanzar hasta 25.13 GiB/seg.
Este nivel de rendimiento es más que suficiente incluso para las tareas de IA más exigentes, como entrenar grandes modelos de aprendizaje profundo en conjuntos de datos masivos o ejecutar inferencias en tiempo real en transmisiones de video de alta resolución. La capacidad de escalar el rendimiento agregando más unidades a la matriz RAID0 la convierte en una opción atractiva para aplicaciones de IA donde el acceso rápido y eficiente a los datos es crucial.
Sin embargo, es importante tener en cuenta que las configuraciones RAID0, si bien ofrecen un alto rendimiento, no proporcionan ninguna redundancia de datos. Por lo tanto, es esencial implementar estrategias adecuadas de copia de seguridad y protección de datos para evitar la pérdida de datos en caso de falla de la unidad.
Otra consideración única en los centros de datos actuales es la potencia. Dado que los servidores de IA consumen más energía que nunca y no muestran signos de desaceleración, la energía total disponible es uno de los mayores cuellos de botella para quienes buscan incorporar GPU a sus centros de datos. Esto significa que hay que centrarse aún más en ahorrar cada vatio posible. Si puede obtener más TB por vatio, abordamos algunos procesos de pensamiento interesantes en torno al TCO y los costos de infraestructura. Incluso sacar estas unidades del servidor GPU y colocarlas en un servidor de almacenamiento a escala de rack puede ofrecer un rendimiento masivo con capacidades extremas.
La integración de SSD QLC Solidigm D5-P5336 de 61.44 TB con servidores de IA con ranura NVMe limitada representa un avance significativo para abordar los desafíos de almacenamiento de las cargas de trabajo de IA modernas. Su extrema densidad, características de rendimiento y relación TB/vatio los hacen ideales para las fases de preparación, entrenamiento y ajuste de datos, e inferencia. Al optimizar el uso de carriles PCIe y proporcionar soluciones de almacenamiento de alta capacidad, estos SSD permiten que la AI Factory moderna se centre en desarrollar e implementar modelos más sofisticados y precisos, impulsando la innovación en todo el campo de la IA.
Página de Lenovo ThinkSystem SR675 V3
Este informe está patrocinado por Solidigm. Todos los puntos de vista y opiniones expresados en este informe se basan en nuestra visión imparcial de los productos bajo consideración.
Interactuar con StorageReview
Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed