Startseite Unternehmen Steigerung der Rechenzentrumseffizienz mit Solidigm SSDs und flüssigkeitsgekühlten Servern

Steigerung der Rechenzentrumseffizienz mit Solidigm SSDs und flüssigkeitsgekühlten Servern

by Brian Beeler
Dell PowerEdge CoolIT Mini CDU

Die Kombination aus Flüssigkeitskühlung und effizienter SSD-Verwaltung bietet Rechenzentren, die ihre Leistung und Speicherdichte steigern möchten, einen Weg nach vorn.

Da Rechenzentren nach mehr Energieeffizienz streben, insbesondere angesichts der Anforderungen von KI-Workloads, setzen viele auf Flüssigkeitskühlung, um die Leistung zu optimieren und den Energieverbrauch zu steuern. Flüssigkeitskühlung kann die von Hochleistungsservern erzeugte Wärme effizient steuern und ihnen ermöglichen, mit maximaler Kapazität zu arbeiten, ohne die energieintensiven Kosten, die mit herkömmlicher Luftkühlung verbunden sind. Die hochdichten SSDs von Solidigm sind ideal für diese Umgebungen geeignet und bieten eine außergewöhnliche Terabyte-zu-Watt-Effizienz.

Während KI viele Rechenzentrumsbetreiber dazu zwingt, Flüssigkeitskühlung in Betracht zu ziehen, reichen ihre Auswirkungen noch viel weiter. In einem früheren Bericht untersuchten wir die Wirkung der Flüssigkeitskühlung auf einem 2U Dell PowerEdge R760. Die direkte Flüssigkeitskühlung (DLC) von CoolIT reduzierte den Energieverbrauch des Servers durch Reduzierung der Lüftergeschwindigkeiten erheblich, was eine Stromersparnis von 200 Watt bedeutete. Bei diesem Test lag der Schwerpunkt ausschließlich auf der CPU-Leistung; dieses Mal wollten wir einen stärker speicherorientierten Blick darauf werfen, um die Auswirkungen von SSDs auf den Stromverbrauch des Servers zu verstehen.

Dell PowerEdge Solidigm und CDU

Was sind aktive NVMe-Energiezustände?

NVMe-Energiezustände sind vordefinierte Zustände in die ein NVMe-Gerät wechseln kann, um Stromverbrauch und Leistung zu verwalten. Die NVMe-Spezifikation ermöglicht bis zu 32 Energiezustände, die jeweils durch maximalen Stromverbrauch, Eingangslatenz (ENLAT), Ausgangslatenz (EXXLAT) und relative Leistungswerte gekennzeichnet sind. Diese Energiezustände sind in Betriebs- und Nichtbetriebszustände unterteilt. Betriebsenergiezustände oder P-Zustände ermöglichen dem Gerät die Verarbeitung von E/A-Vorgängen. Nichtbetriebszustände oder F-Zustände werden verwendet, wenn das Gerät im Leerlauf ist und keine E/A-Vorgänge verarbeitet.

Die Verwaltung dieser Energiezustände ist entscheidend für die Optimierung der Energieeffizienz von NVMe-Geräten, insbesondere in Umgebungen, in denen der Stromverbrauch ein kritischer Faktor ist, wie z. B. bei Edge-Geräten und Spezialanwendungen wie den SSDs auf der Internationalen Raumstation. Die NVMe-Spezifikation umfasst beispielsweise Funktionen wie Autonomous Power State Transition (APST), mit der das Gerät je nach aktueller Nutzung und thermischen Bedingungen automatisch zwischen Energiezuständen wechseln kann. Dies hilft dabei, Leistung und Stromverbrauch in Einklang zu bringen und einen zuverlässigen Betrieb in abgelegenen oder eingeschränkten Umgebungen sicherzustellen. Die Unterstützung von Runtime D3 (RTD3) ermöglicht es dem Gerät, in einen Leerlaufzustand ohne Stromverbrauch zu wechseln, wodurch bei Nichtgebrauch noch mehr Energie gespart wird.

NVMe-Energiezustände sind besonders dann von Vorteil, wenn Energieeffizienz und Wärmemanagement im Vordergrund stehen. Bei Edge-Geräten beispielsweise kann die Fähigkeit, im Leerlauf schnell in niedrigere Energiezustände zu wechseln, den Energieverbrauch erheblich senken, was für Geräte, die in abgelegenen oder rauen Umgebungen mit begrenzter Stromversorgung betrieben werden, von entscheidender Bedeutung ist. Dies wird durch Funktionen wie PCIe Active State Power Management (ASPM) und Energiesparzustände wie L1.1 und L1.2 erreicht, die den Stromverbrauch auf ein Minimum reduzieren. Aufgrund der begrenzten und kontrollierten Umgebung ist die Verwaltung von Strom und Wärmeabgabe auf der ISS von entscheidender Bedeutung. NVMe-Energiezustände können dabei helfen, den Stromverbrauch von SSDs zu drosseln, um die Thermal Design Power (TDP) zu verwalten und das Gesamtenergiebudget zu optimieren, wodurch sichergestellt wird, dass die SSDs effizient arbeiten, ohne zu überhitzen.

In diesen speziellen Umgebungen bieten NVMe-Energiezustände eine flexible und effiziente Möglichkeit, den Stromverbrauch von NVMe-Geräten zu verwalten. Durch die Nutzung dieser Zustände können Geräte Leistung und Energieeffizienz ausbalancieren, was sie für verschiedene Anwendungen geeignet macht, vom Edge Computing bis hin zu Weltraummissionen. Die Möglichkeit, Energiezustände dynamisch basierend auf Echtzeitbedingungen anzupassen, stellt sicher, dass NVMe-Geräte den unterschiedlichen Anforderungen verschiedener Umgebungen gerecht werden und gleichzeitig die Energieeffizienz und das Wärmemanagement optimieren können.

Neben den NVMe-Energiezuständen spielt das Konzept der Verbundtemperatur und der Berührungstemperatur eine entscheidende Rolle bei der Verwaltung der thermischen Leistung von NVMe-SSDs in neuen Enterprise-SSDs. Die Berührungstemperatur stellt die externe Gehäusetemperatur der SSD dar. Solidigm ist führend bei der Einführung neuer, höherer Berührungstemperaturstandards. Die werkseitig eingestellte Berührungstemperatur für Solidigm D5-P5336 beträgt beispielsweise 80 °C. Diese höhere Berührungstemperaturgrenze ermöglicht es, SSDs mit geringerem Luftstrom zu kühlen oder bei höheren Umgebungstemperaturen zu betreiben. Diese Flexibilität ermöglicht es Rechenzentren, Kühlstrategien zu optimieren und das gesamte Wärmemanagement zu verbessern, wodurch möglicherweise die Kühlkosten gesenkt und die Zuverlässigkeit und Langlebigkeit der SSDs verbessert werden.

Verwalten aktiver NVMe-Energiezustände

In einer Linux-Testumgebung mit Ubuntu 22.04 können wir das NVMe-Toolset verwenden, um das Laufwerk abzufragen und die Energiezustände des D5-P5336 anzuzeigen und zu ändern. Wie Sie unten sehen können, unterstützt das Laufwerk die Zustände 0,1, 2 und 0, wobei Stufe 2 am wenigsten restriktiv und Stufe XNUMX am restriktivsten ist.

Beim Solidigm 61.44 TB D5-P5336 beträgt PS0 25 W, PS1 15 W und PS2 10 W. Das Laufwerk verbraucht im Leerlauf etwa 5.5 W, sodass die SSD mit jeder Erhöhung des Energiesparmodus immer weniger Energie für NAND-Lese- und Schreibvorgänge zur Verfügung hat. Schreibvorgänge sind am stärksten betroffen, da das Schreiben auf NAND mehr Energie verbraucht als das Lesen von NAND.

Der Befehl zum Überprüfen des aktuellen Energiezustands unserer Solidigm D5-P5336 SSD wird unten angezeigt. Der aktuelle Wert von 00000000 zeigt an, dass sich das Laufwerk im PS0-Modus befindet, dem höchsten 25-W-Modus.

Ein ähnlicher Befehl wird ausgegeben, um den Energiezustand zu ändern, wobei die letzte Zahl den Energiemodus darstellt, in dem sich die SSD befinden soll. Beispielsweise setzt der folgende Befehl den Energiemodus auf der Soldigim D0-P5 SSD auf PS5336. Wenn Sie die Energiemodi 1 oder 2 verwenden, ändern Sie die Zahl —-value= so, dass sie dem richtigen Energiemodus entspricht.

Auswirkungen von Energiezuständen auf die Leistung

Um die Auswirkungen der Energiezustände auf Stromverbrauch und Leistung der Solidigm D5-P5336 61.44 TB SSD zu messen, haben wir einen Dell PowerEdge R760 mit 24 SSDs ausgestattet. Mit Ubuntu und dem FIO-Workload-Generator konnten wir problemlos eine konsistente Arbeitslast auf allen SSDs ausführen und den Energiemodus im laufenden Betrieb aktualisieren.

Dell PowerEdge Solidigm P5336

Wir haben die integrierte Stromüberwachung von Dell im integrierten iDRAC9-Verwaltungssystem des Servers verwendet, um die Stromversorgung auf Systemebene zu überwachen.

Dell PowerEdge iDRAC-Stromversorgung

Wir haben uns auf sequentielle Lese- und Schreibbandbreiten-Workloads konzentriert, wobei wir eine Blockgröße von 128 KB auf jedem Laufwerk verwendet haben, und dann die Gesamtleistung aller 24 SSDs gemessen. Es ist zu beachten, dass diese spezielle Dell PowerEdge R760-Konfiguration mit 24 NVMe-Schächten einen PCIe-Switch anstelle von direkt angeschlossenen NVMe-Schächten nutzt. Die gemessene Gesamtbandbreite sättigt also die verfügbaren PCIe-Switch-Lanes, bevor sie die Laufwerke erreicht. Dies wirkt sich auf die von uns gemessene Gesamtleseleistung im Vergleich zum Datenblatt des Soldigim P5536 aus, aber die Gesamtschreibgeschwindigkeiten lagen alle unter dieser Grenze.

insgesamt Watts Schreibgeschwindigkeit Lesen in GB/s Watts
Über Basis
Watt/Antrieb
(mit System-Overhead)
Im Leerlauf Keine Laufwerke 462 - - - -
Leerlaufantriebe installiert 594 - - 132 5.5
24x sequentielles Lesen PS0 858 - 109GB / s 396 16.5
24x sequentielles Lesen PS1 858 - 105GB / s 396 16.5
24x sequentielles Lesen PS2 759 - 79.8GB / s 297 12.375
24x sequentielles Schreiben PS0 1089 82.5GB / s - 627 26.125
24x sequentielles Schreiben PS1 825 34.4GB / s - 363 15.125
24x sequentielles Schreiben PS2 726 17.3GB / s - 264 11

Wenn wir auf unseren Artikel über die Vorteile der Umstellung einer luftgekühlten Plattform auf Direktflüssigkeitskühlung zurückblicken, konnten wir eine leichte Leistungssteigerung bei den CPUs feststellen, aber auch 200 W Strom sparen. Strom ist ein kostbares Gut in der neuen Welle KI-zentrierter Server, die häufig alle verfügbaren Ressourcen GPUs und High-End-CPUs widmen. In einem Rechenzentrum, das an oder nahe der Leistungsgrenze der Luftkühlung ist, erkauft man sich durch die Umstellung auf DLC ein Leistungsbudget, das es ermöglicht, den Server mit mehr SSDs zu bestücken, bei gleichem Stromverbrauch wie ein luftgekühlter Server.

Solidigm Flüssigkeitskühlung Coolit CDU

Eine Stromersparnis von 200 W kann in Bezug auf die Speicherdichte viel bewirken. Diese Einsparung ermöglicht es Ihnen, den Speicherbedarf von 12 auf 24 SSDs in einem flüssigkeitsgekühlten Server im Vergleich zu einem luftgekühlten Server zu verdoppeln, wenn Ihre Arbeitslasten auf leseintensive Arbeitslasten ausgerichtet sind. Mit dem Solidigm D5-P5336 hat dieser 24-Bay-Server dank der Flüssigkeitsschleife eine erhöhte Speicherkapazität von 737 TB auf 1,474 TB. Wenn die Arbeitslast schreibintensiv ist, könnten Sie den Server mit etwa acht weiteren SSDs ausstatten. Diese Zahlen beziehen sich jedoch auf die Basis-Energiemodi. Wenn Sie also bereit sind, etwas Schreibleistung am oberen Ende einzusparen, können Sie Ihren Server bei schreibintensiver Arbeitslast mit reduzierter Leistung problemlos mit 24 SSDs bestücken.

Schlussfolgerung

Bei unseren Tests der Solidigm D5-P5336 SSDs haben wir gesehen, wie die Verwaltung von NVMe-Energiezuständen die Energieeffizienz erheblich verbessern kann, ohne die Leistung dramatisch zu beeinträchtigen. Rechenzentrumsbetreiber, die die Energieeffizienz maximieren möchten, können diese Energiezustände nutzen, um eine höhere Speicherdichte zu erreichen oder die Betriebskosten zu senken, insbesondere in KI-zentrierten Umgebungen, in denen Strom ein kostbares Gut ist. Die hochdichten SSDs von Solidigm sind hierfür gut positioniert und bieten eine hervorragende Terabyte-zu-Watt-Effizienz, insbesondere mit modernen Flüssigkeitskühlungstechnologien.

Unsere Ergebnisse zeigen, dass selbst geringfügige Anpassungen des Energiezustands zu erheblichen Stromeinsparungen führen können, was in Umgebungen mit eingeschränkter Stromversorgung von entscheidender Bedeutung sein kann. Die Optimierung des Gesamtstromverbrauchs von Servern verbessert die Speicherdichte und unterstützt einen nachhaltigeren Rechenzentrumsbetrieb.

Dell PowerEdge SolidGraphic P5336 Einzeln

Das Energiemanagement wird immer wichtiger, da moderne Server an ihre Grenzen stoßen, insbesondere bei KI-gesteuerten Workloads. Die Kombination aus Flüssigkeitskühlung und effizienten SSD-Verwaltungsoptionen bietet Rechenzentren, die Leistung und Speicherdichte skalieren möchten, ohne das Energiebudget zu überschreiten, einen Weg nach vorn.

Sie können die vollständige Demo dieser Technologien live auf der OCP 2024 sehen. Wir zeigen, wie Flüssigkeitskühlung und SSDs von Solidigm die Eckpfeiler der Energieeffizienz im modernen Rechenzentrum sein können.

Solidigm-Speicherlösungen

Dieser Bericht wird von Solidigm gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed