Im Zeitalter der generativen KI werden mehr Daten erstellt als je zuvor. Solidigm bietet eine Lösung für viele Herausforderungen in der modernen KI-Fabrik.
Es ist kein Geheimnis, dass wir die enorme Dichte der Solidigm 61.44 TB U.2 NVMe SSDs lieben. Wir haben zahlreiche Ausdauer- und Leistungstests durchgeführt, wissenschaftliche Entdeckungen gemacht und Weltrekordberechnungen auf neue, außergewöhnliche Höhen getrieben. Angesichts des rasanten KI-Wahns um uns herum war der nächste logische Schritt, zu sehen, wie sich die Solidigm NVMe-Laufwerke in der dynamischen Welt der KI 2024 schlagen.
Die Vorteile extremer Speicherdichte verstehen
Die 61.44 TB QLC SSDs von Solidigm zeichnen sich durch ihre bemerkenswerte Speicherkapazität aus, die es Rechenzentren ermöglicht, mehr Speicher auf weniger Laufwerke zu packen. Diese extreme Dichte ist besonders bei KI-Servern von Vorteil, bei denen Datensätze exponentiell wachsen und effiziente Speicherlösungen von größter Bedeutung sind. Durch den Einsatz dieser SSDs mit hoher Kapazität können Rechenzentren die Anzahl physischer Laufwerke reduzieren, den Platzbedarf verringern, den Stromverbrauch senken und die Wartung vereinfachen.
Begrenzte PCIe-Lanes in GPU-Servern
Eine der größten Herausforderungen bei modernen GPU-Servern ist die begrenzte Anzahl an PCIe-Lanes, die nach der Nutzung der GPUs noch verfügbar sind. GPUs sind für KI-Workloads von entscheidender Bedeutung und benötigen eine erhebliche PCIe-Bandbreite, sodass oft nur begrenzte Lanes für andere Komponenten, einschließlich Speichergeräte und Netzwerke, übrig bleiben. Aufgrund dieser Einschränkung ist es unerlässlich, die Nutzung der verfügbaren PCIe-Lanes zu optimieren. Die 61.44 TB QLC SSDs von Solidigm bieten eine Lösung, indem sie enorme Speicherkapazität auf einem einzigen Laufwerk bereitstellen, den Bedarf an mehreren Laufwerken reduzieren und PCIe-Lanes für GPUs und andere wichtige Komponenten freihalten.
KI-Workloads und Speicheranforderungen
KI-Workloads können grob in drei Phasen unterteilt werden: Datenaufbereitung, Training und Feinabstimmung sowie Inferenzierung. Jede Phase hat einzigartige Speicheranforderungen, und die SSDs mit hoher Kapazität von Solidigm können Leistung und Effizienz in diesen Phasen erheblich steigern. Der Einsatz von QLC-Laufwerken mit hoher Kapazität wie dem Solidigm D5-P5336 kommt allen KI-Workloads zugute. Die meisten Vorteile übergreifen von der Datenaufbereitung über Training und Feinabstimmung bis hin zur Inferenzierung.
Datenaufbereitung
Die Datenaufbereitung ist die Grundlage jedes KI-Projekts und umfasst die Datenerfassung, -bereinigung, -transformation und -erweiterung. Diese Phase erfordert umfangreiche Speicherkapazität, da Rohdatensätze enorm groß sein können. Die 61.44 TB QLC SSDs von Solidigm können umfangreiche Rohdaten speichern, ohne die Leistung zu beeinträchtigen. Darüber hinaus gewährleisten die hohen sequentiellen Lese- und Schreibgeschwindigkeiten dieser SSDs einen schnellen Zugriff auf Daten und beschleunigen so den Aufbereitungsprozess. Für die Datenaufbereitung erfüllen die 61.44 TB QLC SSDs von Soidigm alle oben genannten Anforderungen mit Vorteilen wie:
- Riesige Speicherkapazität: Effizienter Umgang mit großen Datensätzen.
- Hohe sequentielle Geschwindigkeiten: Schneller Datenzugriff und -verarbeitung.
- Reduzierte Latenz: Minimierte Verzögerungen beim Datenabruf, wodurch die Effizienz des Arbeitsablaufs verbessert wird.
Schulung und Feinabstimmung
Das Trainieren von KI-Modellen ist ein intensiver Prozess, bei dem umfangreiche Datensätze in neuronale Netzwerke eingespeist werden, um Gewichte und Verzerrungen anzupassen. Diese Phase ist rechenintensiv und erfordert hohe IOPS (Input/Output Operations Per Second) und Speicher mit geringer Latenz, um mit dem schnellen Datenaustausch zwischen dem Speicher und den GPUs Schritt zu halten. Die SSDs von Solidigm zeichnen sich in dieser Hinsicht durch hohe Leistung und Haltbarkeit aus. Die extreme Dichte dieser SSDs ermöglicht die Verwendung umfangreicherer Datensätze beim Training, was möglicherweise zu genaueren Modellen führt. Um den Anforderungen an Training und Feinabstimmung gerecht zu werden, bieten die Solidigm SSDs Folgendes:
- Hohe IOPS: Unterstützt den für das Training wichtigen schnellen Datenaustausch.
- Haltbarkeit: QLC-Technologie, optimiert für lese-/schreibintensive Arbeitslasten, ideal für wiederholte Trainingszyklen.
- Skalierbarkeit: Erweitern Sie den Speicher, ohne physische Laufwerke hinzuzufügen, und sorgen Sie für eine effiziente Nutzung der PCIe-Lanes.
Inferenz
Nach dem Training werden KI-Modelle eingesetzt, um Vorhersagen oder Entscheidungen auf der Grundlage neuer Daten zu treffen, was als Inferenz bezeichnet wird. Diese Phase erfordert häufig einen schnellen Zugriff auf vorverarbeitete Daten und eine effiziente Handhabung erhöhter Leseanforderungen. Die 61.44 TB QLC SSDs von Solidigm bieten die erforderliche Leseleistung und geringe Latenz, um sicherzustellen, dass Inferenzvorgänge reibungslos und schnell ausgeführt werden. Solidigm SSDs übertreffen die Leistung und geringe Latenz, indem sie die folgenden Vorteile bieten:
- Schnelle Leseleistung: Gewährleistet schnellen Zugriff auf Daten für Echtzeit-Inferenzen.
- Geringe Wartezeit: Entscheidend für Anwendungen, die sofortige Antworten erfordern.
- Hohe Kapazität: Speichern Sie umfangreiche Inferenzdaten und historische Ergebnisse effizient.
Die QLC-Technologie bietet erhebliche Vorteile für Inferenzanwendungen, darunter hohe Speicherkapazität, Kosteneffizienz, schnelle Lesegeschwindigkeiten, effiziente PCIe-Nutzung, Langlebigkeit und verbesserte Workflow-Effizienz. Diese Vorteile verbessern gemeinsam die Leistung, Skalierbarkeit und Kosteneffizienz von Inferenzaufgaben und machen QLC-Laufwerke zur idealen Wahl für moderne KI- und Machine-Learning-Bereitstellungen.
Warum ist es wichtig, großen Speicher so nah wie möglich an der GPU zu haben?
Bei KI und maschinellem Lernen kann die Nähe des Speichers zur GPU die Leistung erheblich beeinflussen. Bei der Gestaltung eines KI-Rechenzentrums müssen mehrere Faktoren sorgfältig berücksichtigt werden, um optimale Funktionalität und Effizienz zu gewährleisten. Aus diesem Grund ist es so wichtig, über einen umfangreichen Speicher zu verfügen, der sich so nah wie möglich an der GPU befindet. Wie wir kürzlich untersucht haben, entwickelt sich der Zugriff auf eine umfangreiche NAS-Lösung zunehmend zu einem Allheilmittel, aber sich allein darauf zu verlassen, ist möglicherweise nicht immer die optimale Wahl.
Latenz und Bandbreite
Ein Hauptgrund dafür, ausreichend Speicher in der Nähe der GPU zu platzieren, besteht darin, die Latenz zu minimieren und die Bandbreite zu maximieren. KI-Workloads, insbesondere während des Trainings, beinhalten häufige und massive Datenübertragungen zwischen dem Speicher und der GPU. Eine hohe Latenz kann den gesamten Prozess zum Engpass machen, die Trainingszeiten verlangsamen und die Effizienz verringern.
Bei KI-Workloads, bei denen eine schnelle Datenverfügbarkeit von entscheidender Bedeutung ist, sorgt eine geringe Latenz dafür, dass GPUs Daten umgehend empfangen, wodurch Leerlaufzeiten reduziert und die allgemeine Rechenleistung verbessert wird. Während der Trainingsphase müssen der GPU kontinuierlich riesige Datenmengen zur Verarbeitung zugeführt werden. Durch Minimierung der Latenz stellt DAS sicher, dass die Hochgeschwindigkeitsanforderungen von KI-Anwendungen erfüllt werden, was zu schnelleren Trainingszeiten und effizienteren Arbeitsabläufen führt.
Datendurchsatz und I/O-Leistung
Lokale NVMe-SSDs zeichnen sich durch die Verarbeitung einer großen Anzahl von Input/Output-Operationen pro Sekunde (IOPS) aus, was für die lese-/schreibintensive Natur von KI-Workloads von entscheidender Bedeutung ist. Während der Trainingsphase benötigen KI-Modelle schnellen Zugriff auf riesige Datenspeicher, was Speicherlösungen erfordert, die mit der hohen Nachfrage nach Datentransaktionen Schritt halten können.
Der Solidigm D5-P5336 wurde für Szenarien mit hoher Kapazität und hoher Leistung entwickelt und bietet außergewöhnliche IOPS, wodurch schnellere Datenabruf- und Schreibvorgänge ermöglicht werden. Diese Funktion stellt sicher, dass die GPUs mit Berechnungen beschäftigt bleiben, anstatt auf Daten zu warten, wodurch die Effizienz maximiert und die Trainingszeiten verkürzt werden. Die hohe IOPS-Leistung lokaler NVMe-SSDs macht sie ideal für die anspruchsvollen Umgebungen von KI-Anwendungen, bei denen schneller Datenzugriff und schnelle Datenverarbeitung für eine optimale Leistung unerlässlich sind.
Datenmanagement
Während in einigen Szenarien ausreichend Speicher direkt an die GPU angeschlossen ist, wird die Datenverwaltung vereinfacht, aber dadurch wird eine notwendige Ebene der Datenverwaltung hinzugefügt, um die Daten auf dem GPU-Server bereitzustellen. In einer perfekten Welt ist Ihre GPU mit der Verarbeitung beschäftigt und Ihre CPU greift auf das Netzwerk zu, um Prüfpunkte zu speichern oder neue Daten herunterzuladen. Die Solidigm-Laufwerke mit 61.44 TB tragen dazu bei, die Anzahl der erforderlichen Datentransaktionen zu reduzieren. Sie können dies auch durch eine vereinfachte Netzwerkeinrichtung und verteilte Dateisysteme berücksichtigen. Dieser unkomplizierte Ansatz kann Arbeitsabläufe optimieren und das Potenzial für datenbezogene Fehler oder Verzögerungen verringern.
Angenommen, Sie arbeiten auf einem einzelnen Server und optimieren Modelle, die auf eine Handvoll lokal angeschlossener GPUs passen. In diesem Fall profitieren Sie von lokalem Speicher, der einfacher einzurichten und zu verwalten ist als Netzwerkspeicherlösungen. Die Konfiguration, Verwaltung und Wartung von NAS-Speicher kann komplex und zeitaufwändig sein und erfordert häufig Fachwissen und zusätzliche Infrastruktur. Im Gegensatz dazu lassen sich lokale Speicherlösungen wie NVMe-SSDs einfacher in vorhandene Server-Setups integrieren.
Diese einfache Konfiguration und Wartung ermöglicht es IT-Teams, sich stärker auf die Optimierung von KI-Workloads zu konzentrieren, anstatt sich mit den Feinheiten der Netzwerkspeicherverwaltung zu befassen. Infolgedessen wird die Bereitstellung und Verwaltung von Speicher für KI-Anwendungen mit lokalen NVMe-SSDs einfacher und effizienter.
Kosten und Skalierbarkeit
NAS-Lösungen können zwar durch Hinzufügen weiterer Speichergeräte horizontal skaliert werden, sind jedoch auch mit Kosten für die Netzwerkinfrastruktur und potenziellen Leistungsengpässen verbunden. Umgekehrt kann die Investition in lokalen Speicher mit hoher Kapazität sofortige Leistungsvorteile ohne umfangreiche Netzwerk-Upgrades bieten.
Lokale Speicherlösungen sind oft kostengünstiger als Network-Attached Storage-Systeme (NAS), da sie keine teure Netzwerkhardware und keine komplexen Konfigurationen erfordern. Die Einrichtung und Wartung von NAS erfordert erhebliche Investitionen in Netzwerkgeräte wie Hochgeschwindigkeits-Switches und -Router sowie laufende Netzwerkverwaltungs- und Wartungskosten.
Lokale SSDs mit großer Kapazität, die direkt in den Server integriert sind, werden als Staging-Bereich verwendet, wodurch der Bedarf an zusätzlicher Infrastruktur reduziert wird. Diese direkte Integration senkt die Hardwarekosten und vereinfacht den Einrichtungsprozess. Dadurch ist es für Unternehmen, die ihre KI-Workloads optimieren möchten, budgetfreundlicher, ohne hohe Kosten zu verursachen.
Um die Leistung von Solidigm 61.44 TB QLC SSDs in einem KI-Server-Setup gründlich zu bewerten, werden wir ein Array von vier Solidigm P5336 61.44 TB SSDs, die in einem Lenovo ThinkSystem SR675 V3 installiert sind, einem Benchmarking unterziehen. Diese Serverkonfiguration umfasst auch einen Satz von vier NVIDIA L40S GPUs. Das zu diesem Zweck verwendete Benchmarking-Tool ist GDSIO, ein spezielles Dienstprogramm zum Messen der Speicherleistung in GPU-Direct-Storage-Umgebungen (GDS). Wir haben uns zwei Konfigurationen angesehen: eine GPU für die Leistung eines einzelnen Laufwerks und eine GPU für vier Laufwerke, konfiguriert für RAID0.
Bleiben Sie dran. Die folgenden Abschnitte behandeln die Einzelheiten der Tests und wie sie verschiedene Phasen der KI-Pipeline nachbilden.
Testparameter
Der Benchmarking-Prozess umfasst verschiedene Testparameter, die unterschiedliche Phasen der KI-Pipeline simulieren. Zu diesen Parametern gehören io_sizes, threads und transfer_type, die jeweils so ausgewählt wurden, dass sie bestimmte Aspekte der KI-Workloads darstellen.
1. IO-Größen:
- 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Diese unterschiedlichen E/A-Größen helfen dabei, unterschiedliche Datenübertragungsmuster zu simulieren. Kleinere E/A-Größen (128 K, 256 K, 512 K) simulieren Szenarien, in denen häufig auf kleine Datenblöcke zugegriffen wird, was typisch für die Datenvorbereitungsphasen ist. Größere E/A-Größen (1 M, 4 M, 16 M, 64 M, 128 M) stellen Massendatenübertragungen dar, die häufig während der Trainings- und Inferenzphasen auftreten, in denen ganze Datenstapel verschoben werden.
2. Themen:
- 1, 4, 16, 32: Die Anzahl der Threads stellt den Grad der Gleichzeitigkeit des Datenzugriffs dar. Ein einzelner Thread testet die Basisleistung, während höhere Threadzahlen (4, 16, 32) intensivere, parallele Datenverarbeitungsaktivitäten simulieren, ähnlich dem, was während umfangreicher Trainingssitzungen geschieht, bei denen mehrere Datenströme gleichzeitig verarbeitet werden.
3. Überweisungsarten:
- Speicher->GPU (GDS): Dieser Übertragungstyp nutzt GPU Direct Storage (GDS) und ermöglicht direkte Datenübertragungen zwischen den SSDs und den GPUs unter Umgehung der CPU. Diese Konfiguration ist ideal, um die Effizienz direkter Datenpfade zu testen und die Latenz zu minimieren und spiegelt Echtzeit-Inferenzszenarien wider.
- Speicher->CPU->GPU: Bei diesem traditionellen Datenübertragungspfad werden Daten vom Speicher zur CPU verschoben, bevor sie zur GPU übertragen werden. Diese Methode simuliert Szenarien, in denen auf CPU-Ebene eine Zwischenverarbeitung oder Zwischenspeicherung erfolgen kann, was während der Datenvorbereitungsphase zu erwarten ist. Wir könnten argumentieren, dass dieser Datenpfad die Leistung unabhängig vom GPU-Anbieter darstellen würde.
- Speicher->SEITEN-CACHE->CPU->GPU: Dieser Pfad verwendet den Seitencache für Datenübertragungen, wobei Daten zunächst im Speicher zwischengespeichert werden, bevor sie von der CPU verarbeitet und dann an die GPU übertragen werden. Diese Konfiguration ist nützlich, um die Auswirkungen von Caching-Mechanismen und Speicherbandbreite auf die Gesamtleistung zu testen, was während des Trainings relevant ist, wenn Daten aus Effizienzgründen vorverarbeitet und zwischengespeichert werden können. Auch hier könnten wir argumentieren, dass dieser Datenpfad die Leistung unabhängig vom GPU-Anbieter darstellen würde.
Nachahmung der Phasen einer KI-Pipeline
Die Benchmarktests sind so konzipiert, dass sie verschiedene Phasen der KI-Pipeline widerspiegeln und sicherstellen, dass die erhaltenen Leistungsmesswerte relevant und umfassend sind.
Datenaufbereitung:
- IO-Größen: Kleiner (128K, 256K, 512K)
- Themen: 1, 4
- Übertragungsarten: „Speicher->CPU->GPU“, „Speicher->PAGE_CACHE->CPU->GPU“
- Zweck: Bewerten Sie, wie die SSDs häufige kleine Datenübertragungen und die CPU-Belastung bewältigen, was während der Phasen der Datenaufnahme, -bereinigung und -erweiterung von entscheidender Bedeutung ist.
Training und Feinabstimmung:
- IO-Größen: Mittel bis groß (1M, 4M, 16M)
- Themen: 4, 16, 32
- Übertragungsarten: „Speicher->GPU (GDS)“, „Speicher->CPU->GPU“
- Zweck: Bewerten Sie die Leistung unter Bedingungen mit hohem Datendurchsatz und mehreren gleichzeitigen Datenströmen, die die intensive Datenverarbeitung darstellen, die während des Modelltrainings und der Feinabstimmung erforderlich ist.
Schlussfolgerung:
- IO-Größen: Groß bis sehr groß (16M, 64M, 128M) und 4K
- Themen: 1, 4, 16
- Übertragungsarten: Speicher->GPU (GDS)
- Zweck: Messen Sie die Effizienz direkter, groß angelegter Datenübertragungen an die GPU. Dies ist entscheidend für Echtzeit-Inferenzanwendungen, bei denen schneller Datenzugriff und minimale Latenz von größter Bedeutung sind. 4K ist für die Anzeige stattfindender RAG-Datenbanksuchvorgänge konzipiert.
Indem wir diese Parameter variieren und verschiedene Konfigurationen testen, können wir ein detailliertes Leistungsprofil der Solidigm 61.44 TB QLC SSDs in einer Hochleistungs-KI-Serverumgebung erstellen, das Einblicke in ihre Eignung und Optimierung für verschiedene KI-Workloads bietet. Wir haben die Daten untersucht, indem wir über mehrere Wochen hinweg mehr als 1200 Tests durchgeführt haben.
Server Configuration
- Lenovo ThinkSystem SR675 V3
- AMD EPYC 9254 24-Core-Prozessor
- 6 x 64 GB DDR5, 384 GB Gesamtkapazität
- 4X NVIDIA L40S GPUs
- 4 x 61.44 TB Solidigm P5336 QLC NVMe SSDs
- Ubuntu Server 22.04
- NVIDIA-Treiberversion: 535.171.04
- CUDA-Version: 12.2
Benchmark-Ergebnisse
Sehen wir uns zunächst die Workloads vom Typ Training und Inferenz an. Die GPU Direct 1024K IO-Größe repräsentiert das Laden von Modellen, das Laden von Trainingsdaten in die GPU und andere große Batch-Inferenzjobs wie bei der Bild- oder Videoarbeit.
4Antrieb | E / A-Typ | Übertragungsart | Themen | Datensatzgröße (KiB) | IO-Größe (KiB) | Durchsatz (GiB/s) | Durchschnittliche Latenz (usecs) |
---|---|---|---|---|---|---|---|
SCHREIBEN | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 | |
weiter LESEN | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 | |
RANDSCHREIBEN | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 | |
RANDREAD | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
Als nächstes betrachten wir kleinere IO-Größen, beispielsweise für eine RAG-Workload, bei der schneller zufälliger 4k-Datenzugriff auf eine auf der Festplatte gespeicherte RAG-Datenbank erfolgt. Effizienter zufälliger I/O ist für Szenarien erforderlich, in denen Inferenz-Workloads nicht sequenziell auf Daten zugreifen müssen, wie etwa bei Empfehlungssystemen oder Suchanwendungen. Die RAID0-Konfiguration weist eine gute Leistung für sequenzielle und zufällige Operationen auf, was für KI-Anwendungen, die eine Mischung aus Zugriffsmustern wie RAG beinhalten, entscheidend ist. Die Leselatenzwerte sind bemerkenswert niedrig, insbesondere in der GPUD
Modus arbeiten können.
Hier wurden 8 Arbeitsthreads ausgewählt, die die SSD nicht vollständig auslasten, aber einen repräsentativeren Schnappschuss dessen liefern, was Sie in einer Arbeitslast vom Typ RAG finden können. Dies bietet einen Kontext einer Standardanwendung aus der Perspektive der GPU mit einer begrenzten Anzahl von Arbeitsthreads und einer höheren Warteschlangentiefe. Es ist erwähnenswert, dass dies zeigt, dass noch mehr Leistung übrig ist, die durch weitere Softwareoptimierungen erreicht werden kann.
4Antrieb | E / A-Typ | Übertragungsart | Themen | Datensatzgröße (KiB) | IO-Größe (KiB) | Durchsatz (GiB/s) | Durchschnittliche Latenz (usecs) |
---|---|---|---|---|---|---|---|
SCHREIBEN | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 | |
weiter LESEN | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 | |
RANDSCHREIBEN | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 | |
RANDREAD | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Wenn Sie GPU Direct aufgrund nicht unterstützter Bibliotheken oder GPUs nicht verwenden, sind hier diese beiden Typen, wenn Sie die CPU für die Datenübertragung nutzen. Bei diesem speziellen Server, dem Lenovo ThinkSystem SR675 V3, sehen wir eine vergleichbare Bandbreite, da alle PCIe-Geräte durch den CPU-Root-Komplex gehen, aber unsere Latenzzeit ist geringer. Wir können eine Verbesserung bei einem System mit PCIe-Switches erwarten.
4Antrieb | E / A-Typ | Übertragungsart | Themen | Datensatzgröße (KiB) | IO-Größe (KiB) | Durchsatz (GiB/s) | Durchschnittliche Latenz (usecs) |
---|---|---|---|---|---|---|---|
SCHREIBEN | CPU_GPU | 8 | 767,126,528 | 1024 | 12.24 | 638.05 | |
weiter LESEN | CPU_GPU | 8 | 660,889,600 | 1024 | 10.58 | 738.75 | |
RANDSCHREIBEN | CPU_GPU | 8 | 752,763,904 | 1024 | 12.02 | 649.76 | |
RANDREAD | CPU_GPU | 8 | 656,329,728 | 1024 | 10.47 | 746.26 | |
SCHREIBEN | CPU_GPU | 8 | 69,498,220 | 4 | 1.11 | 27.47 | |
weiter LESEN | CPU_GPU | 8 | 36,634,680 | 4 | 0.58 | 52.31 |
Die Tabelle zeigt hohe Durchsatzraten für Lesevorgänge, insbesondere bei der GPUD
Übertragungstyp. Beispielsweise Leseoperationen in GPUD
Der Modus erreicht über 10.5 GiB/s. Dies kommt KI-Workloads zugute, die oft einen schnellen Datenzugriff zum Trainieren großer Modelle erfordern.
Aufgrund der ausgewogenen Leistung zwischen zufälligen und sequentiellen Operationen eignet sich diese Konfiguration für Inferenzaufgaben, die häufig eine Mischung dieser Zugriffsmuster erfordern. Die Latenzwerte sind zwar nicht extrem niedrig, liegen aber für viele Inferenzanwendungen immer noch innerhalb akzeptabler Grenzen.
Darüber hinaus verzeichnen wir beeindruckende Durchsatzraten mit Schreibvorgängen von bis zu 12.31 GiB/s und Lesevorgängen von bis zu 9.30 GiB/s. Dieser hohe Durchsatz kommt KI-Workloads zugute, die einen schnellen Datenzugriff für Modelltraining und Inferenz erfordern.
Sequentielles Lesen und Optimierung
Wenn wir auf eine IO-Größe von 128 MB umsteigen und die Worker-Threads durchlaufen, können wir das Ergebnis der Optimierung einer Arbeitslast für eine Speicherlösung sehen.
Übertragungsart | Themen | Durchsatz (GiB/s) | Latenz (µs) |
---|---|---|---|
Speicher->CPU->GPU | 16 | 25.134916 | 79528.88255 |
Speicher->CPU->GPU | 4 | 25.134903 | 19887.66948 |
Speicher->CPU->GPU | 32 | 25.12613 | 159296.2804 |
Speicher->GPU (GDS) | 4 | 25.057484 | 19946.07198 |
Speicher->GPU (GDS) | 16 | 25.044871 | 79770.6007 |
Speicher->GPU (GDS) | 32 | 25.031055 | 159478.8246 |
Speicher->SEITEN-CACHE->CPU->GPU | 16 | 24.493948 | 109958.4447 |
Speicher->SEITEN-CACHE->CPU->GPU | 32 | 24.126103 | 291792.8345 |
Speicher->GPU (GDS) | 1 | 23.305366 | 5362.611458 |
Speicher->SEITEN-CACHE->CPU->GPU | 4 | 21.906704 | 22815.52797 |
Speicher->CPU->GPU | 1 | 15.27233 | 8182.667969 |
Speicher->SEITEN-CACHE->CPU->GPU | 1 | 6.016992 | 20760.22778 |
Das ordnungsgemäße Schreiben jeder Anwendung für die Interaktion mit dem Speicher ist von größter Bedeutung und muss berücksichtigt werden, da Unternehmen ihre GPU-Investition maximieren möchten.
GPU Direct
Indem wir die GPU Direct-Only-Leistung für alle Tests isolieren, können wir uns einen allgemeinen Eindruck von der Leistung der NVIDIA-Technologie verschaffen.
E / A-Typ | Übertragungsart | Themen | Datensatzgröße (KiB) | IO-Größe (KiB) | Durchsatz (GiB/s) | Durchschnittliche Latenz (usecs) |
---|---|---|---|---|---|---|
SCHREIBEN | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 |
weiter LESEN | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 |
RANDSCHREIBEN | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 |
RANDREAD | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
SCHREIBEN | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 |
weiter LESEN | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 |
RANDSCHREIBEN | GPUD | 8 | 8,522,752 | 4 | 0.14 | 224.05 |
RANDREAD | GPUD | 8 | 21,161,116 | 4 | 0.34 | 89.99 |
RANDSCHREIBEN | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 |
RANDREAD | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Abschließende Gedanken
Da sich dieser Artikel auf die Solidigm 61.44 TB P5336 konzentriert, gehen wir einen Schritt zurück und befassen uns mit der TLC vs. QLC-Debatte rund um Leistung vs. Kapazität. Wenn wir uns andere Produkte im Solidigm-Portfolio ansehen, wie etwa die D7-Reihe, die TLC 3D NAND verwendet, ist die Kapazität im Austausch für die Leistung begrenzt. Bei unseren Tests, insbesondere mit den 61.44 TB Solidigm-Laufwerken, sehen wir eine Gesamtdurchsatzleistung, die GPUs bei niedrigen Latenzen ausreichend mit Daten versorgen kann. Wir erhalten Feedback von ODMs und OEMs über die Nachfrage nach immer mehr Speicher so nah wie möglich an der GPU, und das Solidigm D5-P5336-Laufwerk scheint diese Anforderungen zu erfüllen. Da in GPU-Servern normalerweise eine begrenzte Anzahl von NVMe-Schächten verfügbar ist, stehen die dichten Solidigm-Laufwerke ganz oben auf der Liste für lokalen GPU-Serverspeicher.
Letztlich ist die enorme Speicherkapazität, die diese Laufwerke zusammen mit GPUs bieten, nur ein Teil der Lösung; sie müssen dennoch eine gute Leistung erbringen. Wenn man die Leistung eines einzelnen Laufwerks auf mehrere Laufwerke verteilt, ist klar, dass selbst für die anspruchsvollsten Aufgaben ausreichend Durchsatz zur Verfügung steht. Im Fall der RAID4-Konfiguration mit 0 Laufwerken und GDSIO könnte der Gesamtdurchsatz für Schreibvorgänge bis zu 12.31 GiB/s und für Lesevorgänge bis zu XNUMX GiB/s erreichen. 25.13 GiB/Sek.
Dieser Durchsatz ist mehr als ausreichend für selbst die anspruchsvollsten KI-Aufgaben, wie etwa das Trainieren großer Deep-Learning-Modelle auf riesigen Datensätzen oder das Ausführen von Echtzeit-Inferenzen auf hochauflösenden Videostreams. Die Möglichkeit, die Leistung durch Hinzufügen weiterer Laufwerke zum RAID0-Array zu skalieren, macht es zu einer überzeugenden Wahl für KI-Anwendungen, bei denen ein schneller und effizienter Datenzugriff entscheidend ist.
Es ist jedoch wichtig zu beachten, dass RAID0-Konfigurationen zwar eine hohe Leistung bieten, jedoch keine Datenredundanz bieten. Daher ist es wichtig, geeignete Sicherungs- und Datenschutzstrategien zu implementieren, um Datenverlust im Falle eines Laufwerksausfalls zu verhindern.
Ein weiterer einzigartiger Aspekt in heutigen Rechenzentren ist der Stromverbrauch. Da KI-Server mehr Strom verbrauchen als je zuvor und keine Anzeichen einer Verlangsamung zeigen, ist die insgesamt verfügbare Leistung einer der größten Engpässe für diejenigen, die GPUs in ihre Rechenzentren integrieren möchten. Dies bedeutet, dass der Fokus noch stärker darauf liegt, jedes mögliche Watt einzusparen. Wenn Sie mehr TB pro Watt erreichen können, kommen wir zu einigen interessanten Denkprozessen in Bezug auf TCO und Infrastrukturkosten. Selbst wenn man diese Laufwerke vom GPU-Server entfernt und in einen Speicherserver im Rack-Maßstab einbaut, kann ein enormer Durchsatz mit extremen Kapazitäten erzielt werden.
Die Integration von Solidigm D5-P5336 61.44 TB QLC SSDs mit NVMe-Steckplatz-begrenzten KI-Servern stellt einen bedeutenden Fortschritt bei der Bewältigung der Speicherherausforderungen moderner KI-Workloads dar. Ihre extreme Dichte, Leistungsmerkmale und ihr TB/Watt-Verhältnis machen sie ideal für die Datenaufbereitung, das Training und die Feinabstimmung sowie für Inferenzphasen. Durch die Optimierung der Nutzung von PCIe-Lanes und die Bereitstellung von Speicherlösungen mit hoher Kapazität ermöglichen diese SSDs der modernen KI-Fabrik, sich auf die Entwicklung und Bereitstellung anspruchsvollerer und genauerer Modelle zu konzentrieren und so Innovationen im gesamten KI-Bereich voranzutreiben.
Lenovo ThinkSystem SR675 V3 Seite
Dieser Bericht wird von Solidigm gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed