Home UnternehmenAI Steigern Sie die KI-Effizienz mit den riesigen 61.44 TB NVMe SSDs von Solidigm

Steigern Sie die KI-Effizienz mit den riesigen 61.44 TB NVMe SSDs von Solidigm

by Jordan Ranous

Im Zeitalter der generativen KI werden mehr Daten erstellt als je zuvor. Solidigm bietet eine Lösung für viele Herausforderungen in der modernen KI-Fabrik.

Es ist kein Geheimnis, dass wir die enorme Dichte der Solidigm 61.44 TB U.2 NVMe SSDs lieben. Wir haben zahlreiche Ausdauer- und Leistungstests durchgeführt, wissenschaftliche Entdeckungen gemacht und Weltrekordberechnungen auf neue, außergewöhnliche Höhen getrieben. Angesichts des rasanten KI-Wahns um uns herum war der nächste logische Schritt, zu sehen, wie sich die Solidigm NVMe-Laufwerke in der dynamischen Welt der KI 2024 schlagen.

Die Vorteile extremer Speicherdichte verstehen

Die 61.44 TB QLC SSDs von Solidigm zeichnen sich durch ihre bemerkenswerte Speicherkapazität aus, die es Rechenzentren ermöglicht, mehr Speicher auf weniger Laufwerke zu packen. Diese extreme Dichte ist besonders bei KI-Servern von Vorteil, bei denen Datensätze exponentiell wachsen und effiziente Speicherlösungen von größter Bedeutung sind. Durch den Einsatz dieser SSDs mit hoher Kapazität können Rechenzentren die Anzahl physischer Laufwerke reduzieren, den Platzbedarf verringern, den Stromverbrauch senken und die Wartung vereinfachen.

Vorderansicht des Lenovo ThinkSystem SR675 V3 mit Solidigm SSD

Begrenzte PCIe-Lanes in GPU-Servern

Eine der größten Herausforderungen bei modernen GPU-Servern ist die begrenzte Anzahl an PCIe-Lanes, die nach der Nutzung der GPUs noch verfügbar sind. GPUs sind für KI-Workloads von entscheidender Bedeutung und benötigen eine erhebliche PCIe-Bandbreite, sodass oft nur begrenzte Lanes für andere Komponenten, einschließlich Speichergeräte und Netzwerke, übrig bleiben. Aufgrund dieser Einschränkung ist es unerlässlich, die Nutzung der verfügbaren PCIe-Lanes zu optimieren. Die 61.44 TB QLC SSDs von Solidigm bieten eine Lösung, indem sie enorme Speicherkapazität auf einem einzigen Laufwerk bereitstellen, den Bedarf an mehreren Laufwerken reduzieren und PCIe-Lanes für GPUs und andere wichtige Komponenten freihalten.

Innenansicht des Laufwerksgehäuses Lenovo ThinkSystem SR675 V3 von oben

KI-Workloads und Speicheranforderungen

KI-Workloads können grob in drei Phasen unterteilt werden: Datenaufbereitung, Training und Feinabstimmung sowie Inferenzierung. Jede Phase hat einzigartige Speicheranforderungen, und die SSDs mit hoher Kapazität von Solidigm können Leistung und Effizienz in diesen Phasen erheblich steigern. Der Einsatz von QLC-Laufwerken mit hoher Kapazität wie dem Solidigm D5-P5336 kommt allen KI-Workloads zugute. Die meisten Vorteile übergreifen von der Datenaufbereitung über Training und Feinabstimmung bis hin zur Inferenzierung.

Datenaufbereitung

Die Datenaufbereitung ist die Grundlage jedes KI-Projekts und umfasst die Datenerfassung, -bereinigung, -transformation und -erweiterung. Diese Phase erfordert umfangreiche Speicherkapazität, da Rohdatensätze enorm groß sein können. Die 61.44 TB QLC SSDs von Solidigm können umfangreiche Rohdaten speichern, ohne die Leistung zu beeinträchtigen. Darüber hinaus gewährleisten die hohen sequentiellen Lese- und Schreibgeschwindigkeiten dieser SSDs einen schnellen Zugriff auf Daten und beschleunigen so den Aufbereitungsprozess. Für die Datenaufbereitung erfüllen die 61.44 TB QLC SSDs von Soidigm alle oben genannten Anforderungen mit Vorteilen wie:

  • Riesige Speicherkapazität: Effizienter Umgang mit großen Datensätzen.
  • Hohe sequentielle Geschwindigkeiten: Schneller Datenzugriff und -verarbeitung.
  • Reduzierte Latenz: Minimierte Verzögerungen beim Datenabruf, wodurch die Effizienz des Arbeitsablaufs verbessert wird.

Schulung und Feinabstimmung

Das Trainieren von KI-Modellen ist ein intensiver Prozess, bei dem umfangreiche Datensätze in neuronale Netzwerke eingespeist werden, um Gewichte und Verzerrungen anzupassen. Diese Phase ist rechenintensiv und erfordert hohe IOPS (Input/Output Operations Per Second) und Speicher mit geringer Latenz, um mit dem schnellen Datenaustausch zwischen dem Speicher und den GPUs Schritt zu halten. Die SSDs von Solidigm zeichnen sich in dieser Hinsicht durch hohe Leistung und Haltbarkeit aus. Die extreme Dichte dieser SSDs ermöglicht die Verwendung umfangreicherer Datensätze beim Training, was möglicherweise zu genaueren Modellen führt. Um den Anforderungen an Training und Feinabstimmung gerecht zu werden, bieten die Solidigm SSDs Folgendes:

  • Hohe IOPS: Unterstützt den für das Training wichtigen schnellen Datenaustausch.
  • Haltbarkeit: QLC-Technologie, optimiert für lese-/schreibintensive Arbeitslasten, ideal für wiederholte Trainingszyklen.
  • Skalierbarkeit: Erweitern Sie den Speicher, ohne physische Laufwerke hinzuzufügen, und sorgen Sie für eine effiziente Nutzung der PCIe-Lanes.

Inferenz

Nach dem Training werden KI-Modelle eingesetzt, um Vorhersagen oder Entscheidungen auf der Grundlage neuer Daten zu treffen, was als Inferenz bezeichnet wird. Diese Phase erfordert häufig einen schnellen Zugriff auf vorverarbeitete Daten und eine effiziente Handhabung erhöhter Leseanforderungen. Die 61.44 TB QLC SSDs von Solidigm bieten die erforderliche Leseleistung und geringe Latenz, um sicherzustellen, dass Inferenzvorgänge reibungslos und schnell ausgeführt werden. Solidigm SSDs übertreffen die Leistung und geringe Latenz, indem sie die folgenden Vorteile bieten:

  • Schnelle Leseleistung: Gewährleistet schnellen Zugriff auf Daten für Echtzeit-Inferenzen.
  • Geringe Wartezeit: Entscheidend für Anwendungen, die sofortige Antworten erfordern.
  • Hohe Kapazität: Speichern Sie umfangreiche Inferenzdaten und historische Ergebnisse effizient.

Die QLC-Technologie bietet erhebliche Vorteile für Inferenzanwendungen, darunter hohe Speicherkapazität, Kosteneffizienz, schnelle Lesegeschwindigkeiten, effiziente PCIe-Nutzung, Langlebigkeit und verbesserte Workflow-Effizienz. Diese Vorteile verbessern gemeinsam die Leistung, Skalierbarkeit und Kosteneffizienz von Inferenzaufgaben und machen QLC-Laufwerke zur idealen Wahl für moderne KI- und Machine-Learning-Bereitstellungen.

Warum ist es wichtig, großen Speicher so nah wie möglich an der GPU zu haben?

Bei KI und maschinellem Lernen kann die Nähe des Speichers zur GPU die Leistung erheblich beeinflussen. Bei der Gestaltung eines KI-Rechenzentrums müssen mehrere Faktoren sorgfältig berücksichtigt werden, um optimale Funktionalität und Effizienz zu gewährleisten. Aus diesem Grund ist es so wichtig, über einen umfangreichen Speicher zu verfügen, der sich so nah wie möglich an der GPU befindet. Wie wir kürzlich untersucht haben, entwickelt sich der Zugriff auf eine umfangreiche NAS-Lösung zunehmend zu einem Allheilmittel, aber sich allein darauf zu verlassen, ist möglicherweise nicht immer die optimale Wahl.

Latenz und Bandbreite

Ein Hauptgrund dafür, ausreichend Speicher in der Nähe der GPU zu platzieren, besteht darin, die Latenz zu minimieren und die Bandbreite zu maximieren. KI-Workloads, insbesondere während des Trainings, beinhalten häufige und massive Datenübertragungen zwischen dem Speicher und der GPU. Eine hohe Latenz kann den gesamten Prozess zum Engpass machen, die Trainingszeiten verlangsamen und die Effizienz verringern.

Bei KI-Workloads, bei denen eine schnelle Datenverfügbarkeit von entscheidender Bedeutung ist, sorgt eine geringe Latenz dafür, dass GPUs Daten umgehend empfangen, wodurch Leerlaufzeiten reduziert und die allgemeine Rechenleistung verbessert wird. Während der Trainingsphase müssen der GPU kontinuierlich riesige Datenmengen zur Verarbeitung zugeführt werden. Durch Minimierung der Latenz stellt DAS sicher, dass die Hochgeschwindigkeitsanforderungen von KI-Anwendungen erfüllt werden, was zu schnelleren Trainingszeiten und effizienteren Arbeitsabläufen führt.

Interne Ansicht der GPUs von Lenovo ThinkSystem SR675 V3

NVMe-SSDs maximieren das Potenzial der PCIe-Schnittstelle, ermöglichen eine deutlich schnellere Datenübertragung und umgehen die langsamere vorhandene Infrastruktur. Diese hohe Bandbreite ist für KI-Workloads, die die schnelle Übertragung großer Datensätze erfordern, unerlässlich. Wenn der Speicher direkt angeschlossen ist, wird die den GPUs zur Verfügung stehende Bandbreite maximiert, was einen schnelleren Zugriff auf die umfangreichen Daten ermöglicht, die zum Trainieren komplexer Modelle erforderlich sind.

Im Gegensatz dazu führt der NAS-Speicher von Legacy-Installationen zusätzliche Latenzschichten ein und verringert in der Regel die Bandbreite. Selbst bei Hochgeschwindigkeitsnetzwerken kann der mit Netzwerkprotokollen verbundene Overhead und eine mögliche Netzwerküberlastung die Leistung beeinträchtigen. Wenn Sie eine enorme Kapazität direkt an Ihre GPU angeschlossen haben, können Sie Daten stagnieren, sodass diese nicht warten müssen, bis die Arbeit erledigt ist, wenn die GPU mit der Verarbeitung beginnt.

Datendurchsatz und I/O-Leistung

Lokale NVMe-SSDs zeichnen sich durch die Verarbeitung einer großen Anzahl von Input/Output-Operationen pro Sekunde (IOPS) aus, was für die lese-/schreibintensive Natur von KI-Workloads von entscheidender Bedeutung ist. Während der Trainingsphase benötigen KI-Modelle schnellen Zugriff auf riesige Datenspeicher, was Speicherlösungen erfordert, die mit der hohen Nachfrage nach Datentransaktionen Schritt halten können.

Draufsicht der NVIDIA L40S GPUs

Der Solidigm D5-P5336 wurde für Szenarien mit hoher Kapazität und hoher Leistung entwickelt und bietet außergewöhnliche IOPS, wodurch schnellere Datenabruf- und Schreibvorgänge ermöglicht werden. Diese Funktion stellt sicher, dass die GPUs mit Berechnungen beschäftigt bleiben, anstatt auf Daten zu warten, wodurch die Effizienz maximiert und die Trainingszeiten verkürzt werden. Die hohe IOPS-Leistung lokaler NVMe-SSDs macht sie ideal für die anspruchsvollen Umgebungen von KI-Anwendungen, bei denen schneller Datenzugriff und schnelle Datenverarbeitung für eine optimale Leistung unerlässlich sind.

Datenmanagement

Während in einigen Szenarien ausreichend Speicher direkt an die GPU angeschlossen ist, wird die Datenverwaltung vereinfacht, aber dadurch wird eine notwendige Ebene der Datenverwaltung hinzugefügt, um die Daten auf dem GPU-Server bereitzustellen. In einer perfekten Welt ist Ihre GPU mit der Verarbeitung beschäftigt und Ihre CPU greift auf das Netzwerk zu, um Prüfpunkte zu speichern oder neue Daten herunterzuladen. Die Solidigm-Laufwerke mit 61.44 TB tragen dazu bei, die Anzahl der erforderlichen Datentransaktionen zu reduzieren. Sie können dies auch durch eine vereinfachte Netzwerkeinrichtung und verteilte Dateisysteme berücksichtigen. Dieser unkomplizierte Ansatz kann Arbeitsabläufe optimieren und das Potenzial für datenbezogene Fehler oder Verzögerungen verringern.

Vorderansicht des Lenovo ThinkSystem SR675 V3

Angenommen, Sie arbeiten auf einem einzelnen Server und optimieren Modelle, die auf eine Handvoll lokal angeschlossener GPUs passen. In diesem Fall profitieren Sie von lokalem Speicher, der einfacher einzurichten und zu verwalten ist als Netzwerkspeicherlösungen. Die Konfiguration, Verwaltung und Wartung von NAS-Speicher kann komplex und zeitaufwändig sein und erfordert häufig Fachwissen und zusätzliche Infrastruktur. Im Gegensatz dazu lassen sich lokale Speicherlösungen wie NVMe-SSDs einfacher in vorhandene Server-Setups integrieren.

Lenovo ThinkSystem SR675 V3 - Schaltplan

Diese einfache Konfiguration und Wartung ermöglicht es IT-Teams, sich stärker auf die Optimierung von KI-Workloads zu konzentrieren, anstatt sich mit den Feinheiten der Netzwerkspeicherverwaltung zu befassen. Infolgedessen wird die Bereitstellung und Verwaltung von Speicher für KI-Anwendungen mit lokalen NVMe-SSDs einfacher und effizienter.

Kosten und Skalierbarkeit

NAS-Lösungen können zwar durch Hinzufügen weiterer Speichergeräte horizontal skaliert werden, sind jedoch auch mit Kosten für die Netzwerkinfrastruktur und potenziellen Leistungsengpässen verbunden. Umgekehrt kann die Investition in lokalen Speicher mit hoher Kapazität sofortige Leistungsvorteile ohne umfangreiche Netzwerk-Upgrades bieten.

Lokale Speicherlösungen sind oft kostengünstiger als Network-Attached Storage-Systeme (NAS), da sie keine teure Netzwerkhardware und keine komplexen Konfigurationen erfordern. Die Einrichtung und Wartung von NAS erfordert erhebliche Investitionen in Netzwerkgeräte wie Hochgeschwindigkeits-Switches und -Router sowie laufende Netzwerkverwaltungs- und Wartungskosten.

Lokale SSDs mit großer Kapazität, die direkt in den Server integriert sind, werden als Staging-Bereich verwendet, wodurch der Bedarf an zusätzlicher Infrastruktur reduziert wird. Diese direkte Integration senkt die Hardwarekosten und vereinfacht den Einrichtungsprozess. Dadurch ist es für Unternehmen, die ihre KI-Workloads optimieren möchten, budgetfreundlicher, ohne hohe Kosten zu verursachen.

Testmethodik

Um die Leistung von Solidigm 61.44 TB QLC SSDs in einem KI-Server-Setup gründlich zu bewerten, werden wir ein Array von vier Solidigm P5336 61.44 TB SSDs, die in einem Lenovo ThinkSystem SR675 V3 installiert sind, einem Benchmarking unterziehen. Diese Serverkonfiguration umfasst auch einen Satz von vier NVIDIA L40S GPUs. Das zu diesem Zweck verwendete Benchmarking-Tool ist GDSIO, ein spezielles Dienstprogramm zum Messen der Speicherleistung in GPU-Direct-Storage-Umgebungen (GDS). Wir haben uns zwei Konfigurationen angesehen: eine GPU für die Leistung eines einzelnen Laufwerks und eine GPU für vier Laufwerke, konfiguriert für RAID0.

Draufsicht des Lenovo ThinkSystem SR675 V3 mit vier L40S-GPUs

Bleiben Sie dran. Die folgenden Abschnitte behandeln die Einzelheiten der Tests und wie sie verschiedene Phasen der KI-Pipeline nachbilden.

Testparameter

Der Benchmarking-Prozess umfasst verschiedene Testparameter, die unterschiedliche Phasen der KI-Pipeline simulieren. Zu diesen Parametern gehören io_sizes, threads und transfer_type, die jeweils so ausgewählt wurden, dass sie bestimmte Aspekte der KI-Workloads darstellen.

1. IO-Größen:

  • 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Diese unterschiedlichen E/A-Größen helfen dabei, unterschiedliche Datenübertragungsmuster zu simulieren. Kleinere E/A-Größen (128 K, 256 K, 512 K) simulieren Szenarien, in denen häufig auf kleine Datenblöcke zugegriffen wird, was typisch für die Datenvorbereitungsphasen ist. Größere E/A-Größen (1 M, 4 M, 16 M, 64 M, 128 M) stellen Massendatenübertragungen dar, die häufig während der Trainings- und Inferenzphasen auftreten, in denen ganze Datenstapel verschoben werden.

2. Themen:

  • 1, 4, 16, 32: Die Anzahl der Threads stellt den Grad der Gleichzeitigkeit des Datenzugriffs dar. Ein einzelner Thread testet die Basisleistung, während höhere Threadzahlen (4, 16, 32) intensivere, parallele Datenverarbeitungsaktivitäten simulieren, ähnlich dem, was während umfangreicher Trainingssitzungen geschieht, bei denen mehrere Datenströme gleichzeitig verarbeitet werden.

3. Überweisungsarten:

  • Speicher->GPU (GDS): Dieser Übertragungstyp nutzt GPU Direct Storage (GDS) und ermöglicht direkte Datenübertragungen zwischen den SSDs und den GPUs unter Umgehung der CPU. Diese Konfiguration ist ideal, um die Effizienz direkter Datenpfade zu testen und die Latenz zu minimieren und spiegelt Echtzeit-Inferenzszenarien wider.
  • Speicher->CPU->GPU: Bei diesem traditionellen Datenübertragungspfad werden Daten vom Speicher zur CPU verschoben, bevor sie zur GPU übertragen werden. Diese Methode simuliert Szenarien, in denen auf CPU-Ebene eine Zwischenverarbeitung oder Zwischenspeicherung erfolgen kann, was während der Datenvorbereitungsphase zu erwarten ist. Wir könnten argumentieren, dass dieser Datenpfad die Leistung unabhängig vom GPU-Anbieter darstellen würde.
  • Speicher->SEITEN-CACHE->CPU->GPU: Dieser Pfad verwendet den Seitencache für Datenübertragungen, wobei Daten zunächst im Speicher zwischengespeichert werden, bevor sie von der CPU verarbeitet und dann an die GPU übertragen werden. Diese Konfiguration ist nützlich, um die Auswirkungen von Caching-Mechanismen und Speicherbandbreite auf die Gesamtleistung zu testen, was während des Trainings relevant ist, wenn Daten aus Effizienzgründen vorverarbeitet und zwischengespeichert werden können. Auch hier könnten wir argumentieren, dass dieser Datenpfad die Leistung unabhängig vom GPU-Anbieter darstellen würde.

Nachahmung der Phasen einer KI-Pipeline

Die Benchmarktests sind so konzipiert, dass sie verschiedene Phasen der KI-Pipeline widerspiegeln und sicherstellen, dass die erhaltenen Leistungsmesswerte relevant und umfassend sind.

Datenaufbereitung:

  • IO-Größen: Kleiner (128K, 256K, 512K)
  • Themen: 1, 4
  • Übertragungsarten: „Speicher->CPU->GPU“, „Speicher->PAGE_CACHE->CPU->GPU“
  • Zweck: Bewerten Sie, wie die SSDs häufige kleine Datenübertragungen und die CPU-Belastung bewältigen, was während der Phasen der Datenaufnahme, -bereinigung und -erweiterung von entscheidender Bedeutung ist.

Training und Feinabstimmung:

  • IO-Größen: Mittel bis groß (1M, 4M, 16M)
  • Themen: 4, 16, 32
  • Übertragungsarten: „Speicher->GPU (GDS)“, „Speicher->CPU->GPU“
  • Zweck: Bewerten Sie die Leistung unter Bedingungen mit hohem Datendurchsatz und mehreren gleichzeitigen Datenströmen, die die intensive Datenverarbeitung darstellen, die während des Modelltrainings und der Feinabstimmung erforderlich ist.

Schlussfolgerung:

  • IO-Größen: Groß bis sehr groß (16M, 64M, 128M) und 4K
  • Themen: 1, 4, 16
  • Übertragungsarten: Speicher->GPU (GDS)
  • Zweck: Messen Sie die Effizienz direkter, groß angelegter Datenübertragungen an die GPU. Dies ist entscheidend für Echtzeit-Inferenzanwendungen, bei denen schneller Datenzugriff und minimale Latenz von größter Bedeutung sind. 4K ist für die Anzeige stattfindender RAG-Datenbanksuchvorgänge konzipiert.

Indem wir diese Parameter variieren und verschiedene Konfigurationen testen, können wir ein detailliertes Leistungsprofil der Solidigm 61.44 TB QLC SSDs in einer Hochleistungs-KI-Serverumgebung erstellen, das Einblicke in ihre Eignung und Optimierung für verschiedene KI-Workloads bietet. Wir haben die Daten untersucht, indem wir über mehrere Wochen hinweg mehr als 1200 Tests durchgeführt haben.

Server Configuration

Vorderansicht des Lenovo ThinkSystem SR675 V3


Lenovo ThinkSystem SR675 V3-Architektur

Benchmark-Ergebnisse

Sehen wir uns zunächst die Workloads vom Typ Training und Inferenz an. Die GPU Direct 1024K IO-Größe repräsentiert das Laden von Modellen, das Laden von Trainingsdaten in die GPU und andere große Batch-Inferenzjobs wie bei der Bild- oder Videoarbeit.

4Antrieb E / A-Typ Übertragungsart Themen Datensatzgröße (KiB) IO-Größe (KiB) Durchsatz (GiB/s) Durchschnittliche Latenz (usecs)
SCHREIBEN GPUD 8 777,375,744 1024 12.31 634.55
weiter LESEN GPUD 8 579,439,616 1024 9.30 840.37
RANDSCHREIBEN GPUD 8 751,927,296 1024 12.04 648.67
RANDREAD GPUD 8 653,832,192 1024 10.50 743.89

Als nächstes betrachten wir kleinere IO-Größen, beispielsweise für eine RAG-Workload, bei der schneller zufälliger 4k-Datenzugriff auf eine auf der Festplatte gespeicherte RAG-Datenbank erfolgt. Effizienter zufälliger I/O ist für Szenarien erforderlich, in denen Inferenz-Workloads nicht sequenziell auf Daten zugreifen müssen, wie etwa bei Empfehlungssystemen oder Suchanwendungen. Die RAID0-Konfiguration weist eine gute Leistung für sequenzielle und zufällige Operationen auf, was für KI-Anwendungen, die eine Mischung aus Zugriffsmustern wie RAG beinhalten, entscheidend ist. Die Leselatenzwerte sind bemerkenswert niedrig, insbesondere in der GPUD Modus arbeiten können.

Hier wurden 8 Arbeitsthreads ausgewählt, die die SSD nicht vollständig auslasten, aber einen repräsentativeren Schnappschuss dessen liefern, was Sie in einer Arbeitslast vom Typ RAG finden können. Dies bietet einen Kontext einer Standardanwendung aus der Perspektive der GPU mit einer begrenzten Anzahl von Arbeitsthreads und einer höheren Warteschlangentiefe. Es ist erwähnenswert, dass dies zeigt, dass noch mehr Leistung übrig ist, die durch weitere Softwareoptimierungen erreicht werden kann.

4Antrieb E / A-Typ Übertragungsart Themen Datensatzgröße (KiB) IO-Größe (KiB) Durchsatz (GiB/s) Durchschnittliche Latenz (usecs)
SCHREIBEN GPUD 8 69,929,336 4 1.12 27.32
weiter LESEN GPUD 8 37,096,856 4 0.59 51.52
RANDSCHREIBEN GPUD 8 57,083,336 4 0.91 33.42
RANDREAD GPUD 8 27,226,364 4 0.44 70.07

Wenn Sie GPU Direct aufgrund nicht unterstützter Bibliotheken oder GPUs nicht verwenden, sind hier diese beiden Typen, wenn Sie die CPU für die Datenübertragung nutzen. Bei diesem speziellen Server, dem Lenovo ThinkSystem SR675 V3, sehen wir eine vergleichbare Bandbreite, da alle PCIe-Geräte durch den CPU-Root-Komplex gehen, aber unsere Latenzzeit ist geringer. Wir können eine Verbesserung bei einem System mit PCIe-Switches erwarten.

4Antrieb E / A-Typ Übertragungsart Themen Datensatzgröße (KiB) IO-Größe (KiB) Durchsatz (GiB/s) Durchschnittliche Latenz (usecs)
SCHREIBEN CPU_GPU 8 767,126,528 1024 12.24 638.05
weiter LESEN CPU_GPU 8 660,889,600 1024 10.58 738.75
RANDSCHREIBEN CPU_GPU 8 752,763,904 1024 12.02 649.76
RANDREAD CPU_GPU 8 656,329,728 1024 10.47 746.26
SCHREIBEN CPU_GPU 8 69,498,220 4 1.11 27.47
weiter LESEN CPU_GPU 8 36,634,680 4 0.58 52.31

Die Tabelle zeigt hohe Durchsatzraten für Lesevorgänge, insbesondere bei der GPUD Übertragungstyp. Beispielsweise Leseoperationen in GPUD Der Modus erreicht über 10.5 GiB/s. Dies kommt KI-Workloads zugute, die oft einen schnellen Datenzugriff zum Trainieren großer Modelle erfordern.

Aufgrund der ausgewogenen Leistung zwischen zufälligen und sequentiellen Operationen eignet sich diese Konfiguration für Inferenzaufgaben, die häufig eine Mischung dieser Zugriffsmuster erfordern. Die Latenzwerte sind zwar nicht extrem niedrig, liegen aber für viele Inferenzanwendungen immer noch innerhalb akzeptabler Grenzen.

Darüber hinaus verzeichnen wir beeindruckende Durchsatzraten mit Schreibvorgängen von bis zu 12.31 GiB/s und Lesevorgängen von bis zu 9.30 GiB/s. Dieser hohe Durchsatz kommt KI-Workloads zugute, die einen schnellen Datenzugriff für Modelltraining und Inferenz erfordern.

Sequentielles Lesen und Optimierung

Wenn wir auf eine IO-Größe von 128 MB umsteigen und die Worker-Threads durchlaufen, können wir das Ergebnis der Optimierung einer Arbeitslast für eine Speicherlösung sehen.

Übertragungsart Themen Durchsatz (GiB/s) Latenz (µs)
Speicher->CPU->GPU 16 25.134916 79528.88255
Speicher->CPU->GPU 4 25.134903 19887.66948
Speicher->CPU->GPU 32 25.12613 159296.2804
Speicher->GPU (GDS) 4 25.057484 19946.07198
Speicher->GPU (GDS) 16 25.044871 79770.6007
Speicher->GPU (GDS) 32 25.031055 159478.8246
Speicher->SEITEN-CACHE->CPU->GPU 16 24.493948 109958.4447
Speicher->SEITEN-CACHE->CPU->GPU 32 24.126103 291792.8345
Speicher->GPU (GDS) 1 23.305366 5362.611458
Speicher->SEITEN-CACHE->CPU->GPU 4 21.906704 22815.52797
Speicher->CPU->GPU 1 15.27233 8182.667969
Speicher->SEITEN-CACHE->CPU->GPU 1 6.016992 20760.22778

Das ordnungsgemäße Schreiben jeder Anwendung für die Interaktion mit dem Speicher ist von größter Bedeutung und muss berücksichtigt werden, da Unternehmen ihre GPU-Investition maximieren möchten.

GPU Direct

Indem wir die GPU Direct-Only-Leistung für alle Tests isolieren, können wir uns einen allgemeinen Eindruck von der Leistung der NVIDIA-Technologie verschaffen.

E / A-Typ Übertragungsart Themen Datensatzgröße (KiB) IO-Größe (KiB) Durchsatz (GiB/s) Durchschnittliche Latenz (usecs)
SCHREIBEN GPUD 8 777,375,744 1024 12.31 634.55
weiter LESEN GPUD 8 579,439,616 1024 9.30 840.37
RANDSCHREIBEN GPUD 8 751,927,296 1024 12.04 648.67
RANDREAD GPUD 8 653,832,192 1024 10.50 743.89
SCHREIBEN GPUD 8 69,929,336 4 1.12 27.32
weiter LESEN GPUD 8 37,096,856 4 0.59 51.52
RANDSCHREIBEN GPUD 8 8,522,752 4 0.14 224.05
RANDREAD GPUD 8 21,161,116 4 0.34 89.99
RANDSCHREIBEN GPUD 8 57,083,336 4 0.91 33.42
RANDREAD GPUD 8 27,226,364 4 0.44 70.07

Abschließende Gedanken

Da sich dieser Artikel auf die Solidigm 61.44 TB P5336 konzentriert, gehen wir einen Schritt zurück und befassen uns mit der TLC vs. QLC-Debatte rund um Leistung vs. Kapazität. Wenn wir uns andere Produkte im Solidigm-Portfolio ansehen, wie etwa die D7-Reihe, die TLC 3D NAND verwendet, ist die Kapazität im Austausch für die Leistung begrenzt. Bei unseren Tests, insbesondere mit den 61.44 TB Solidigm-Laufwerken, sehen wir eine Gesamtdurchsatzleistung, die GPUs bei niedrigen Latenzen ausreichend mit Daten versorgen kann. Wir erhalten Feedback von ODMs und OEMs über die Nachfrage nach immer mehr Speicher so nah wie möglich an der GPU, und das Solidigm D5-P5336-Laufwerk scheint diese Anforderungen zu erfüllen. Da in GPU-Servern normalerweise eine begrenzte Anzahl von NVMe-Schächten verfügbar ist, stehen die dichten Solidigm-Laufwerke ganz oben auf der Liste für lokalen GPU-Serverspeicher.

Letztlich ist die enorme Speicherkapazität, die diese Laufwerke zusammen mit GPUs bieten, nur ein Teil der Lösung; sie müssen dennoch eine gute Leistung erbringen. Wenn man die Leistung eines einzelnen Laufwerks auf mehrere Laufwerke verteilt, ist klar, dass selbst für die anspruchsvollsten Aufgaben ausreichend Durchsatz zur Verfügung steht. Im Fall der RAID4-Konfiguration mit 0 Laufwerken und GDSIO könnte der Gesamtdurchsatz für Schreibvorgänge bis zu 12.31 GiB/s und für Lesevorgänge bis zu XNUMX GiB/s erreichen. 25.13 GiB/Sek.

Lenovo ThinkSystem SR675 V3 – Rückansicht für GPUs

Dieser Durchsatz ist mehr als ausreichend für selbst die anspruchsvollsten KI-Aufgaben, wie etwa das Trainieren großer Deep-Learning-Modelle auf riesigen Datensätzen oder das Ausführen von Echtzeit-Inferenzen auf hochauflösenden Videostreams. Die Möglichkeit, die Leistung durch Hinzufügen weiterer Laufwerke zum RAID0-Array zu skalieren, macht es zu einer überzeugenden Wahl für KI-Anwendungen, bei denen ein schneller und effizienter Datenzugriff entscheidend ist.

Es ist jedoch wichtig zu beachten, dass RAID0-Konfigurationen zwar eine hohe Leistung bieten, jedoch keine Datenredundanz bieten. Daher ist es wichtig, geeignete Sicherungs- und Datenschutzstrategien zu implementieren, um Datenverlust im Falle eines Laufwerksausfalls zu verhindern.

Ein weiterer einzigartiger Aspekt in heutigen Rechenzentren ist der Stromverbrauch. Da KI-Server mehr Strom verbrauchen als je zuvor und keine Anzeichen einer Verlangsamung zeigen, ist die insgesamt verfügbare Leistung einer der größten Engpässe für diejenigen, die GPUs in ihre Rechenzentren integrieren möchten. Dies bedeutet, dass der Fokus noch stärker darauf liegt, jedes mögliche Watt einzusparen. Wenn Sie mehr TB pro Watt erreichen können, kommen wir zu einigen interessanten Denkprozessen in Bezug auf TCO und Infrastrukturkosten. Selbst wenn man diese Laufwerke vom GPU-Server entfernt und in einen Speicherserver im Rack-Maßstab einbaut, kann ein enormer Durchsatz mit extremen Kapazitäten erzielt werden.

Die Integration von Solidigm D5-P5336 61.44 TB QLC SSDs mit NVMe-Steckplatz-begrenzten KI-Servern stellt einen bedeutenden Fortschritt bei der Bewältigung der Speicherherausforderungen moderner KI-Workloads dar. Ihre extreme Dichte, Leistungsmerkmale und ihr TB/Watt-Verhältnis machen sie ideal für die Datenaufbereitung, das Training und die Feinabstimmung sowie für Inferenzphasen. Durch die Optimierung der Nutzung von PCIe-Lanes und die Bereitstellung von Speicherlösungen mit hoher Kapazität ermöglichen diese SSDs der modernen KI-Fabrik, sich auf die Entwicklung und Bereitstellung anspruchsvollerer und genauerer Modelle zu konzentrieren und so Innovationen im gesamten KI-Bereich voranzutreiben.

Solidigm SSDs

Lenovo ThinkSystem SR675 V3 Seite

Dieser Bericht wird von Solidigm gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed