Der Supermicro AS-4125GS-TNRT ist ein luftgekühlter 4U-GPU-Server, der zwei CPUs der AMD EPYC 9004-Serie, PCIe Gen5 und 8 GPUs mit doppelter Breite unterstützt.
Supermicro bietet GPU-Server seit langem in mehr Formen und Größen an, als wir in diesem Test besprechen können. Heute schauen wir uns ihren relativ neuen luftgekühlten 4U-GPU-Server an, der zwei CPUs der AMD EPYC 9004-Serie, PCIe Gen5 und eine Auswahl von acht Add-In-GPU-Karten mit doppelter Breite oder 12 GPU-Zusatzkarten mit einfacher Breite unterstützt. Während Supermicro auch Intel-basierte Varianten dieser Server anbietet, ist die AMD-basierte AS-4125GS-TNRT-Familie die einzigen Server dieser Klasse, die NVIDIA H100- und AMD Instinct Mi210-GPUs unterstützen.
Der Supermicro AS-4125GS-TNRT GPU-Server verfügt über einige weitere Hardware-Highlights wie integriertes 10-GbE-Netzwerk, Out-of-Band-Management, 9 FHFL PCIe Gen5-Steckplätze, 24 2.5-Zoll-Schächte, davon vier NVMe, und der Rest SATA/SAS. Es gibt auch 4x redundante 2000-W-Netzteile auf Titan-Niveau. Auf dem Motherboard gibt es einen einzelnen M.2-NVMe-Steckplatz zum Booten.
Bevor wir zu weit gehen, ist es auch erwähnenswert, dass Supermicro zwei weitere Varianten der AS-4125GS-TNRT-Serverkonfiguration anbietet. Obwohl sie dasselbe Motherboard verwenden, handelt es sich beim AS-4125GS-TNRT1 um eine Single-Socket-Konfiguration mit einem PCIe-Switch, der bis zu 10 GPUs doppelter Breite und 8 NVMe-SSD-Schächte unterstützt. Der AS-4125GS-TNRT2 ist eine Dual-Prozessor-Konfiguration, die mehr oder weniger dasselbe ist, wiederum mit dem PCIe-Switch.
Unabhängig von der Konfiguration ist der Supermicro AS-4125GS-TNRT dank seines Designs und der Möglichkeit, Modelle mit PCIe-Switch auszuwählen, unglaublich flexibel. Diese Art von GPU-Server ist beliebt, weil sie es Unternehmen ermöglicht, klein anzufangen und sie zu erweitern, GPUs für unterschiedliche Anforderungen zu kombinieren oder alles zu tun, was sie wollen. Die gesockelten GPU-Systeme bieten die Möglichkeit, GPUs für große KI-Workloads besser zu aggregieren, aber die Add-in-Kartensysteme sind in puncto Workload-Flexibilität unschlagbar.
Auch wenn dies für manche wie eine Blasphemie klingen mag, können die Supermicro-Zusatzkarten-GPU-Server sogar mit Karten von AMD und NVIDIA in derselben Box verwendet werden! Wenn Sie so wollen, schnappen Sie nach Luft, aber viele Kunden haben herausgefunden, dass einige Workloads einen Instinct bevorzugen, während andere Workloads die NVIDIA-GPU bevorzugen. Zu guter Letzt ist es erwähnenswert, dass es sich bei diesen Steckplätzen lediglich um PCIe-Steckplätze handelt, auch wenn sie weniger beliebt sind als GPU-Server, die bis zum Rand vollgestopft sind. Man kann sich durchaus Szenarios vorstellen, in denen Kunden FPGAs, DPUs oder eine andere Form von Beschleunigern in diesem System bevorzugen. Auch hier ist die Flexibilität der entscheidende Hauptvorteil dieses Designs.
Für unsere Testzwecke wurde das Supermicro AS-4125GS-TNRT als Barebone geliefert, sodass wir CPU, DRAM, Speicher und natürlich GPUs hinzufügen konnten. Wir haben mit Supermicro zusammengearbeitet, um für diesen Test vier NVIDIA H4-GPUs auszuleihen.
Supermicro AS-4125GS-TNRT-Spezifikationen
Spezifikationen | |
CPU | Dual-Sockel-SP5-CPUs mit jeweils bis zu 128C/256T |
Memory | Bis zu 24x 256 GB 4800 MHz ECC DDR5 RDIMM/LRDIMM (Insgesamt 6 TB Speicher) |
GPU |
|
Erweiterungssteckplätze | 9x PCIE 5.0 x16 FHFL-Steckplätze |
Stromversorgungen | 4x 2000W redundante Netzteile |
Networking mit anderen Teilnehmern | 2x 10GbE |
Lagerung |
|
Hauptplatine | Super H13DSG-O-CPU |
Management |
|
Sicherheit |
|
Fahrgestellgröße | 4U |
Supermicro AS-4125GS-TNRT Überprüfung der Konfiguration
Wir haben unser System von Supermicro als Barebones konfiguriert, obwohl sie es größtenteils als konfiguriertes System verkaufen. Als es im Labor ankam, bestückten wir es zunächst mit einem Paar AMD EPYC 9374F 32c 64t CPUs. Diese wurden aufgrund ihrer hohen Taktrate und respektablen Multi-Core-Leistung ausgewählt.
Bei den Beschleunigern hatten wir eine große Auswahl, von alten Intel Phi-Coprozessoren über die neuesten H100 PCIe-Karten bis hin zu High-End-RTX 6000 ada-Workstation-GPUs. Unser Ziel war es, die reine Rechenleistung mit Effizienz und Vielseitigkeit in Einklang zu bringen. Letztendlich haben wir uns entschieden, mit vier NVIDIA RTX A6000-GPUs zu beginnen und dann für unsere ersten Tests auf vier NVIDIA H100 PCIe-Karten umzusteigen. Diese Kombination demonstriert die Flexibilität der Supermicro-Plattform und der NVIDIA-Beschleunigerkarten.
Der RTX A6000, der vor allem auf Leistung bei grafikintensiven Workloads ausgelegt ist, glänzt mit seiner Ampere-Architektur auch bei KI- und HPC-Anwendungen. Es bietet 48 GB GDDR6-Speicher und ist somit ideal für die Verarbeitung großer Datensätze und komplexer Simulationen. Seine 10,752 CUDA- und 336 Tensor-Kerne ermöglichen beschleunigtes Rechnen, was für unsere KI- und Deep-Learning-Tests von entscheidender Bedeutung ist.
Andererseits sind die NVIDIA H100 PCIe-Karten die neuesten Lieferkarten der Hopper-Architekturreihe, die hauptsächlich für KI-Workloads entwickelt wurden. Jede Karte verfügt über beeindruckende 80 Milliarden Transistoren, 80 GB HBM3-Speicher und die bahnbrechende Transformer Engine, die auf KI-Modelle wie GPT-4 zugeschnitten ist. Die Tensorkerne und DPX-Anweisungen der 100. Generation des H4 steigern die KI-Inferenz- und Trainingsaufgaben erheblich.
Bei der Integration dieser GPUs in unser Supermicro-Barebone-System haben wir uns darauf konzentriert, angesichts der erheblichen Leistungsaufnahme und Wärmeerzeugung dieser High-End-Komponenten ein optimales Wärmemanagement und eine optimale Stromverteilung sicherzustellen. Obwohl das Supermicro-Chassis eine solche Konfiguration nicht offiziell unterstützt, erwies es sich als vielseitig genug, um unserem Setup gerecht zu werden. Um die Thermik der A6000s unter Kontrolle zu halten, mussten wir sie aufgrund des Käfiglüfterdesigns um eine Kartenbreite anordnen, aber die H100s können mit ihren durchgehenden, passiven Kühlrippen eingepackt werden.
Unsere Benchmarking-Suite umfasste eine Mischung aus HPC- und KI-spezifischen Anwendungsfällen. Diese reichten von traditionellen Benchmarking-Workloads bis hin zu KI-Training und Inferenzaufgaben unter Verwendung von Faltungsmodellen neuronaler Netzwerke. Unser Ziel war es, diese Beschleuniger an ihre Grenzen zu bringen und ihre reine Leistung und Effizienz, Skalierbarkeit und einfache Integration mit unserem Supermicro A+-Server zu bewerten.
Supermicro AS-4125GS-TNRT GPU-Test
Während wir uns mit den Flaggschiff-GPUs von NVIDIA befassen, während wir im Labor an einem CNN-Grundmodell arbeiten, begannen wir mit einer Schulung auf Workstation-Ebene an zwei älteren, aber hochleistungsfähigen GPUs RTX8000 GPUs.
Während unserer KI-Leistungsanalyse haben wir eine bemerkenswerte, aber erwartete Weiterentwicklung der Fähigkeiten beobachtet, von der NVIDIA RTX 8000 zu vier RTX A6000-GPUs und schließlich zu vier NVIDIA H100 PCIe-Karten. Dieser Fortschritt zeigte die enorme Leistung dieser Beschleuniger und die Entwicklung der NVIDIA-Beschleuniger in den letzten Jahren, da der Fokus immer mehr auf KI-Workloads liegt.
Beginnend mit der RTX 8000 konnten wir ein ordentliches Leistungsniveau feststellen. Mit diesem Setup dauerte das Training unseres KI-Modells an einem 6.36 GB großen Bilddatensatz etwa 45 Minuten pro Epoche. Die Einschränkungen der RTX 8000 zeigten sich jedoch hinsichtlich der Batch-Größe und der Komplexität der Aufgaben, die sie bewältigen konnte. Wir waren auf kleinere Chargengrößen beschränkt und die Komplexität der neuronalen Netzwerkmodelle, die wir effektiv trainieren konnten, war begrenzt.
Die Umstellung auf vier RTX-A6000-GPUs markierte einen deutlichen Leistungssprung. Die überlegene Speicherbandbreite und der größere GDDR6000-Speicher des A6 ermöglichten es uns, die Stapelgröße zu vervierfachen und gleichzeitig die gleiche Epochendauer und Modellkomplexität beizubehalten. Diese Verbesserung verbesserte den Trainingsprozess und ermöglichte es uns, mit anspruchsvolleren Modellen zu experimentieren, ohne die Trainingszeit zu verlängern.
Der auffälligste Fortschritt war jedoch die Einführung von vier NVIDIA H100 PCIe-Karten. Durch die Nutzung der erweiterten KI-Funktionen der Hopper-Architektur konnten wir mit diesen Karten die Chargengröße erneut verdoppeln. Noch beeindruckender ist, dass wir die Komplexität unserer KI-Modelle erheblich steigern konnten, ohne dass sich die Epochendauer nennenswert änderte. Diese Fähigkeit ist ein Beweis für die fortschrittlichen KI-spezifischen Funktionen des H100, wie die Transformer Engine und Tensor Cores der 4. Generation, die für die effiziente Abwicklung komplexer KI-Vorgänge optimiert sind.
Während dieser Tests dienten der 6.36 GB große Bilddatensatz und die Modellparameter als konsistenter Benchmark, sodass wir die Leistung verschiedener GPU-Konfigurationen direkt vergleichen konnten. Der Übergang vom RTX 8000 zum A6000 und dann zum H100 zeigte Verbesserungen bei der reinen Rechenleistung und der Fähigkeit der GPUs, größere, komplexere KI-Arbeitslasten zu bewältigen, ohne Kompromisse bei Geschwindigkeit oder Effizienz einzugehen. Dadurch eignen sich diese GPUs besonders für hochmoderne KI-Forschung und groß angelegte Deep-Learning-Anwendungen.
Der in unseren Tests verwendete Supermicro-Server verfügt über eine direkte PCIe-Verbindung zu den CPUs, sodass kein PCIe-Switch erforderlich ist. Durch diese direkte Verbindung wird sichergestellt, dass jede GPU über einen eigenen Pfad zur CPU verfügt, was eine schnelle und effiziente Datenübertragung ermöglicht. Diese Architektur ist bei einigen Workloads in KI und HPC von entscheidender Bedeutung, um die Latenz zu minimieren und die Bandbreitennutzung zu maximieren. Dies ist besonders vorteilhaft, wenn Aufgaben mit hohem Durchsatz wie das Training von KI-Modellen oder komplexe VDI-Umgebungen erledigt werden, wenn die gesamte Arbeit lokal auf dem Server erfolgt.
Schlussfolgerung
Die Skalierbarkeit und Flexibilität des Supermicro GPU A+ Server AS-4125GS-TNRT Servers sind hier die Killer-Features. Dies ist besonders vorteilhaft für Kunden, die sich an sich ändernde Arbeitslastanforderungen anpassen müssen, sei es bei KI, VDI oder anderen Hochleistungsaufgaben. Beginnend mit einer bescheidenen Konfiguration können Benutzer KI- oder VDI-Aufgaben der Einstiegsklasse effektiv bewältigen und bieten so eine kostengünstige Lösung für kleinere Arbeitslasten oder diejenigen, die gerade erst anfangen, sich in die KI- und virtuelle Desktop-Infrastruktur zu wagen. Diese Ersteinrichtung bietet eine solide und skalierbare Grundlage, die es Benutzern ermöglicht, sich mit grundlegenden, aber wichtigen KI- und VDI-Anwendungen zu beschäftigen.
Darüber hinaus wissen wir zwar, dass viele Unternehmen die gesockelten H100-GPUs nutzen möchten, die Wartezeiten für diese Plattformen sind jedoch übermäßig lang. Viele Quellen haben uns mitgeteilt, dass die Wartezeit fast ein Jahr beträgt. Die Logistik der Lieferkette unterstreicht das Tolle an diesem Server, er kann alles bewältigen. L40S-GPUs sind „ab sofort“ verfügbar, sodass Kunden mit dieser Kombination ihre KI-Workloads zumindest früher als später in Gang bringen können. Und wenn sich die Bedürfnisse ändern, können Kunden die Karten problemlos austauschen. Dadurch wird sichergestellt, dass der Supermicro GPU A+ Server AS-4125GS-TNRT-Server nicht nur für den unmittelbaren Bedarf geeignet ist, sondern auch zukunftssicher ist und der sich entwickelnden Technologielandschaft gerecht wird.
Produktseite zum Supermicro 4U GPU-Server
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed