La combinación de refrigeración líquida y gestión eficiente de SSD ofrece un camino a seguir para los centros de datos que buscan escalar el rendimiento y la densidad de almacenamiento.
A medida que los centros de datos se esfuerzan por lograr una mayor eficiencia energética, en particular con las demandas de las cargas de trabajo de IA, muchos están recurriendo a la refrigeración líquida para optimizar el rendimiento y administrar el consumo de energía. La refrigeración líquida puede administrar de manera eficiente el calor generado por los servidores de alto rendimiento, lo que les permite operar a máxima capacidad sin los costos de alto consumo de energía asociados con la refrigeración por aire tradicional. Los SSD de alta densidad de Solidigm son ideales para estos entornos, ya que ofrecen una eficiencia excepcional de terabyte por vatio.
Si bien la IA obliga a muchos operadores de centros de datos a considerar la refrigeración líquida, su impacto llega mucho más allá. En un informe anterior, examinamos la efecto de enfriamiento liquido en un Dell PowerEdge R2 de 760U. La refrigeración líquida directa (DLC) de CoolIT redujo significativamente el consumo de energía del servidor al disminuir las velocidades de los ventiladores, lo que supuso un ahorro de energía de 200 vatios. Esa prueba se centró por completo en el rendimiento de la CPU; esta vez, queríamos adoptar una perspectiva más centrada en el almacenamiento para comprender el impacto de los SSD en el consumo de energía del servidor.
¿Qué son los estados de energía activos de NVMe?
Los estados de energía de NVMe son estados predefinidos a los que puede pasar un dispositivo NVMe para gestionar el consumo de energía y el rendimiento. La especificación NVMe permite hasta 32 estados de energía, cada uno caracterizado por el consumo máximo de energía, la latencia de entrada (ENLAT), la latencia de salida (EXLAT) y los valores de rendimiento relativo. Estos estados de energía se dividen en estados operativos y no operativos. Los estados de energía operativos, o P-States, permiten que el dispositivo gestione operaciones de E/S. Los estados no operativos, o F-States, se utilizan cuando el dispositivo está inactivo y no gestiona operaciones de E/S.
La gestión de estos estados de energía es fundamental para optimizar la eficiencia energética de los dispositivos NVMe, especialmente en entornos en los que el consumo de energía es una preocupación crítica, como los dispositivos de borde y las aplicaciones especializadas como los SSD de la Estación Espacial Internacional. Por ejemplo, la especificación NVMe incluye funciones como la transición autónoma del estado de energía (APST), que permite que el dispositivo realice la transición automática entre estados de energía en función del uso actual y las condiciones térmicas. Esto ayuda a equilibrar el rendimiento con el consumo de energía, lo que garantiza un funcionamiento fiable en entornos remotos o restringidos. La compatibilidad con Runtime D3 (RTD3) permite que el dispositivo entre en un estado inactivo de energía cero, lo que ahorra aún más energía cuando el dispositivo no está en uso.
Los estados de energía NVMe son particularmente beneficiosos cuando la eficiencia energética y la gestión térmica son primordiales. En los dispositivos de borde, por ejemplo, la capacidad de realizar una transición rápida a estados de menor energía cuando están inactivos puede reducir significativamente el consumo de energía, lo que es fundamental para los dispositivos que operan en entornos remotos o hostiles con disponibilidad de energía limitada. Esto se logra mediante funciones como la gestión de energía de estado activo (ASPM) de PCIe y estados de bajo consumo como L1.1 y L1.2, que reducen el consumo de energía a niveles mínimos. La gestión de la energía y la salida térmica en la ISS es crucial debido al entorno limitado y controlado. Los estados de energía NVMe pueden ayudar a limitar el consumo de energía de los SSD para administrar la energía de diseño térmico (TDP) y optimizar el presupuesto de energía general, lo que garantiza que los SSD funcionen de manera eficiente sin sobrecalentarse.
En estos entornos especializados, los estados de energía de NVMe brindan una forma flexible y eficiente de administrar el consumo de energía de los dispositivos NVMe. Al aprovechar estos estados, los dispositivos pueden equilibrar el rendimiento y la eficiencia energética, lo que los hace adecuados para diversas aplicaciones, desde la informática de borde hasta las misiones espaciales. La capacidad de ajustar dinámicamente los estados de energía en función de las condiciones en tiempo real garantiza que los dispositivos NVMe puedan satisfacer las diversas demandas de diferentes entornos y, al mismo tiempo, optimizar la eficiencia energética y la gestión térmica.
Además de los estados de energía de NVMe, el concepto de temperatura compuesta y temperatura táctil desempeña un papel crucial en la gestión del rendimiento térmico de los SSD NVMe en los nuevos SSD empresariales. La temperatura táctil representa la temperatura de la carcasa externa del SSD. Solidigm ha sido líder en la adopción de nuevos estándares de temperatura táctil más elevados. La temperatura táctil configurada de fábrica para Solidigm D5-P5336 es de 80 °C. Este límite de temperatura táctil más elevado permite que los SSD se enfríen con un flujo de aire menor o que funcionen a temperaturas ambiente más altas. Esta flexibilidad permite a los centros de datos optimizar las estrategias de refrigeración y mejorar la gestión térmica general, lo que potencialmente reduce los costos de refrigeración y mejora la confiabilidad y la longevidad de los SSD.
Gestión de estados de energía activos de NVMe
En un entorno de prueba de Linux con Ubuntu 22.04, podemos usar el conjunto de herramientas NVMe para sondear la unidad y ver y cambiar los estados de energía del D5-P5336. Como puede ver a continuación, la unidad admite los estados 0,1, 2 y 0, siendo la etapa 2 la menos restrictiva y la etapa XNUMX la más restrictiva.
En el caso del Solidigm 61.44 TB D5-P5336, la PS0 es de 25 W, la PS1 de 15 W y la PS2 de 10 W. La unidad funciona en modo inactivo a unos 5.5 W, por lo que, con cada aumento del modo de energía, el SSD tiene cada vez menos consumo de energía para dedicarlo a las operaciones de lectura y escritura de NAND. Las operaciones de escritura son las que sufren el mayor impacto, ya que se utiliza más energía para escribir en NAND que para leer desde ella.
A continuación se muestra el comando para verificar el estado de energía actual de nuestro SSD Solidigm D5-P5336. El valor actual de 00000000 indica que la unidad está en PS0, que es el modo más alto de 25 W.
Se emite un comando similar para cambiar el estado de energía, donde el número final representa el modo de energía en el que desea que se encuentre el SSD. Por ejemplo, el siguiente comando establece el modo de energía en PS0 en el SSD Soldigim D5-P5336. Si usa los modos de energía 1 o 2, cambie la cifra—-value= para que corresponda al modo de energía correcto.
Impacto de los estados de poder en el desempeño
Para medir el impacto en el consumo de energía y el impacto en el rendimiento de los estados de energía en el SSD Solidigm D5-P5336 de 61.44 TB, equipamos un Dell PowerEdge R760 con 24 SSD. Al ejecutar Ubuntu y el generador de carga de trabajo FIO, pudimos ejecutar fácilmente una carga de trabajo consistente en todos los SSD y actualizar el modo de energía sobre la marcha.
Utilizamos el monitoreo de energía integrado de Dell dentro del sistema de administración integrado iDRAC9 del servidor para monitorear la energía a nivel del sistema.
Nos centramos en las cargas de trabajo de ancho de banda de lectura y escritura secuencial, utilizando un tamaño de bloque de 128K en cada unidad, y luego medimos el rendimiento agregado en los 24 SSD. Cabe señalar que esta configuración particular de Dell PowerEdge R760 con 24 bahías NVMe aprovecha un conmutador PCIe en lugar de bahías NVMe de conexión directa. Por lo tanto, el ancho de banda total medido satura los carriles del conmutador PCIe disponibles antes de llegar a las unidades. Esto afecta el rendimiento de lectura total que medimos en comparación con la hoja de especificaciones de Soldigim P5536, pero las velocidades de escritura agregadas estuvieron todas por debajo de ese límite.
total de Watts | Velocidad de escritura | Leer GB/s | Watts Sobre la base |
Vatios/unidad (con sobrecarga del sistema) |
|
---|---|---|---|---|---|
Inactivo sin unidades | 462 | – | – | – | – |
Unidades inactivas instaladas | 594 | – | – | 132 | 5.5 |
Lectura secuencial 24x PS0 | 858 | – | 109GB / s | 396 | 16.5 |
Lectura secuencial 24x PS1 | 858 | – | 105GB / s | 396 | 16.5 |
Lectura secuencial 24x PS2 | 759 | – | 79.8GB / s | 297 | 12.375 |
Escritura secuencial 24x PS0 | 1089 | 82.5GB / s | – | 627 | 26.125 |
Escritura secuencial 24x PS1 | 825 | 34.4GB / s | – | 363 | 15.125 |
Escritura secuencial 24x PS2 | 726 | 17.3GB / s | – | 264 | 11 |
Si volvemos a leer nuestro artículo sobre los beneficios de convertir una plataforma refrigerada por aire a refrigeración líquida directa, observamos un ligero aumento del rendimiento en lo que respecta a las CPU, pero también ahorramos 200 W de energía. La energía es un bien preciado en la nueva ola de servidores centrados en la IA que, con frecuencia, dedican todos los recursos disponibles a las GPU y las CPU de alta gama. En un centro de datos que se encuentra en un límite de presupuesto de energía en refrigeración por aire o cerca de él, cambiar a DLC permite comprar un presupuesto de energía que permite que el servidor se llene con más SSD para el mismo consumo de energía que un servidor refrigerado por aire.
Un ahorro de energía de 200 W puede ser de gran ayuda en lo que respecta a la densidad de almacenamiento; ese ahorro le permite duplicar el espacio de almacenamiento de 12 a 24 SSD en un servidor refrigerado por líquido en comparación con un servidor refrigerado por aire si tiene cargas de trabajo orientadas a cargas de trabajo de lectura intensiva. Con el Solidigm D5-P5336, este servidor de 24 bahías ha aumentado la capacidad de almacenamiento de 737 TB a 1,474 TB gracias al circuito líquido. Si la carga de trabajo es de escritura intensiva, podrá equipar el servidor con aproximadamente ocho SSD más. Sin embargo, estas cifras corresponden a los modos de energía básicos, por lo que si está dispuesto a reducir algo el rendimiento de escritura en el extremo superior, podría equipar fácilmente su servidor con 24 SSD con una carga de trabajo de escritura intensiva con un rendimiento reducido.
Conclusión
A través de nuestras pruebas de los SSD Solidigm D5-P5336, hemos visto cómo la gestión de los estados de energía NVMe puede afectar significativamente la eficiencia energética sin afectar drásticamente el rendimiento. Los operadores de centros de datos que buscan maximizar la eficiencia energética pueden aprovechar estos estados de energía para lograr una mayor densidad de almacenamiento o reducir los costos operativos, en particular en entornos centrados en la IA donde la energía es un bien escaso. Los SSD de alta densidad de Solidigm están bien posicionados para esto, ya que ofrecen una excelente eficiencia de terabyte por vatio, especialmente con tecnologías modernas de refrigeración líquida.
Nuestros hallazgos revelan que incluso pequeños ajustes en los estados de energía pueden generar ahorros de energía significativos, lo que puede ser crucial en entornos limitados por la disponibilidad de energía. Optimizar el consumo de energía general de los servidores mejora la densidad de almacenamiento y respalda operaciones de centros de datos más sostenibles.
La gestión de la energía se vuelve cada vez más crítica a medida que los servidores modernos se ven llevados al límite, especialmente en cargas de trabajo impulsadas por IA. La combinación de refrigeración líquida y opciones de gestión eficiente de SSD ofrece un camino a seguir para los centros de datos que buscan escalar el rendimiento y la densidad de almacenamiento sin exceder los presupuestos de energía.
Podrás ver la demostración completa de estas tecnologías en vivo en OCP 2024. Mostraremos cómo la refrigeración líquida y los SSD de Solidigm pueden ser las piedras angulares de la eficiencia energética en el centro de datos moderno.
Soluciones de almacenamiento Solidigm
Este informe está patrocinado por Solidigm. Todos los puntos de vista y opiniones expresados en este informe se basan en nuestra visión imparcial de los productos bajo consideración.
Interactuar con StorageReview
Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed