Startseite Unternehmen Supermicro X13 SuperBlade Review: Das Allround-KI-Gerät

Supermicro X13 SuperBlade Review: Das Allround-KI-Gerät

by Jordan Ranous

Das Supermicro X13 SuperBlade-Gehäuse und die GPU-Blades sind eine äußerst anpassungsfähige und robuste Wahl, insbesondere für mittelgroße KI-Aufgaben.

Supermicro war ein Pionier in der Blade-Server-Technologie und seine SuperBlade-Systeme sind ein Beweis dafür. Die Einführung des Supermicro X13 SuperBlade-Chassis und der Blades eröffnet ein neues Kapitel für die Technologie mit GPU-fähigen Blades und der Integration der neuesten Emerald Rapids CPUs und NVIDIA H100 GPUs. Diese Fortschritte sorgen für außergewöhnliche Rechenleistung und Effizienz und machen den X13 zum idealen Kandidaten für verschiedene High-End-Anwendungen.

Supermicro X13 SuperBlade-Chassis

Design und Spezifikationen

Das Supermicro X13 SuperBlade-Gehäuse behält das bekannte 8U-Gehäusedesign bei, das für seine hohe Dichte und Flexibilität bekannt ist. Jedes Gehäuse unterstützt bis zu 20 Blades, wobei das neueste Angebot durch die Integration von Emerald Rapids-CPUs und NVIDIA H100-GPUs deutlich verbessert wird. Diese leistungsstarke Kombination verspricht beispiellose Rechenkapazitäten. Darüber hinaus verfügt das Gehäuse über 200G-InfiniBand- und 25G-Ethernet-Kommunikation, was eine schnelle Datenübertragung und Netzwerkeffizienz gewährleistet.

Beliebte Anwendungsfälle:

  1. Datenanalyse: Mit der fortschrittlichen Rechenleistung der Emerald Rapids-CPUs und den beschleunigten Rechenfähigkeiten der NVIDIA H100-GPUs eignen sich die X13 SuperBlades hervorragend für anspruchsvolle Datenanalyseaufgaben. Zu diesen Aufgaben gehören die Echtzeit-Datenverarbeitung und umfangreiche Data-Mining-Vorgänge, die in der heutigen datengesteuerten Welt immer wichtiger werden.
  2. Künstliche Intelligenz und maschinelles Lernen: Die X13 SuperBlades bieten die nötige Leistung für KI- und maschinelle Lernmodelle, insbesondere Deep-Learning-Algorithmen, die erhebliche Rechenressourcen erfordern.
  3. High Performance Computing: Wissenschaftliche Simulationen, medizinische Forschung und anspruchsvolle Rechenaufgaben im Ingenieurwesen werden erheblich von der verbesserten Leistung des X13 profitieren, was ihn zur ersten Wahl für Hochleistungsrechneranwendungen macht.
  4. Cloud Computing: Die erhöhte Dichte und Leistung der Blades machen sie ideal für Cloud-Service-Anbieter. Sie können viele cloudbasierte Anwendungen und Dienste verarbeiten, einschließlich solcher, die eine intensive Virtualisierung und Containerisierung erfordern.
  5. Vernetzung und Kommunikation: Ausgestattet mit 200G InfiniBand und 25G Ethernet-Kommunikation zeichnet sich der X13 durch Anwendungen mit hoher Bandbreite und geringer Latenz aus und eignet sich daher für anspruchsvolle Netzwerk- und Kommunikationsaufgaben. Dank seiner externen Vernetzung kann der SuperBlade als Hub fungieren und InfiniBand- und Ethernet-Kommunikation mit herkömmlichen Nicht-Blade-Servern im selben Rack oder Rechenzentrum bereitstellen.

In unserem von Supermicro bereitgestellten Teststand hatten wir insgesamt fünf Rotorblätter. Vier waren mit einem einzelnen Prozessor und der Kapazität für die Aufnahme eines PCIe-Beschleunigers ausgestattet, in unserem Fall vier NVIDIA H100 und ein Dual-Prozessor-Blade. Wir werden mit einem anschließenden Testbericht zum Compute Blade fortfahren. Aufgrund der Länge dieses Testberichts war die Einbeziehung etwas übertrieben.

Supermicro X13 SuperBlade Datenblatt

Komponente Beschreibung
Gehäuse 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
Ventilator 2x PWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
IB-Schalter 1x SBM-IBS-H4020
DE Schalter 2x SBM-25G-200
Blade-Konfiguration
  • SBI-411E-5G:
    • 1x CPU 8562Y+
    • 8x MEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (Samsung 3840G M.2-Laufwerk)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G: [Wie oben]
  • SBI-411E-5G: [Wie oben, mit Micron 480G M.2-Laufwerk]
  • SBI-411E-5G: [Wie oben, mit Micron 480G M.2-Laufwerk]
  • SBI-421E-5T3N:
    • 2x 8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (Micron 480G M.2-Laufwerk)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (Micron 3840G U.2 Laufwerk)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

Supermicro X13 GPU SuperBlades

Die GPU-Blades täuschen auf den ersten Blick über ihre Leistung hinweg, mit einem Einlass an der Vorderseite, wobei unser Dual-Prozessor-Blade einige 2.5-Zoll-NVMe-Schächte anstelle der GPU hat.

Supermicro X13 SuperBlade GPU und Compute Blades

Auf der Rückseite befindet sich eine unglaubliche Anzahl von Pins, um das Blade mit dem Gehäuse zu verbinden und die gesamte Stromversorgung und Daten zu übertragen.

Wenn wir hineinschauen, können wir die m.2-Boot-SSDs im GPU-Blade sehen.

Von oben können wir die Luftführungen sehen. Beachten Sie den Unterschied zwischen einem GPU-Blade und einem Dual-CPU-Blade. Das GPU-Blade-Motherboard ist identisch mit der Dual-CPU, jedoch nur mit der hinteren I/O-Hälfte.

An der Vorderseite können wir beginnen, die verschiedenen Implementierungen zu sehen. Das GPU-Blade verfügt über einen PCIe-Riser, während das CPU-Blade über einen U.2-PCIe-Riser verfügt und in seinen PCIe-Steckplätzen verschiedene Komponenten unterbringen kann. Das Gehäuse ist für eine optimale Kühlung passiver GPUs ausgelegt, indem zunächst Frischluft in die GPU gesaugt wird.

Im weiteren Verlauf können wir von der Rückseite des Gehäuses aus die Netzteile und die Netzwerkkonnektivität sehen. Der Top-Switch mit voller Breite ist für das 200-Gbit-NVIDIA-Quantum-InfiniBand vorgesehen. Der größere der beiden unteren Switches ist das 25G-Ethernet und das kleine Modul in der Mitte ist für das Chassis Management Module.

Supermicro X13 SuperBlade-Cassis hinten

Verwaltung und Bereitstellung des Supermicro X13 SuperBlade-Chassis

Die Integration eines Chassis Management Module (CMM) in das SuperBlade X13-Chassis von Supermicro bietet eine Reihe von Vorteilen, die über die einzelnen Blades hinausgehen und das gesamte Rack umfassen, wodurch die Gesamteffizienz und Verwaltbarkeit des Rechenzentrumsbetriebs erhöht wird. Das CMM dient als zentraler Kontrollpunkt und optimiert die Verwaltung des SuperBlade X13-Systems.

Supermicro X13 SuperBlade-Chassis-Management

Eine einzige Glasscheibe für alle Gehäusefunktionen ist für integrierte Plattformen wie ein Blade-Gehäuse von entscheidender Bedeutung. Obwohl die Fähigkeit, einzelne Blades aus- und wieder einzuschalten, für manche wichtig sein mag, spielen eine Vielzahl anderer Funktionen eine wertvolle Rolle in der täglichen Verwaltungsroutine.

Das CMM von Supermicro bietet einen zentralen Landepunkt zur Überwachung des Gehäuses, zur Anzeige der installierten Blades und zur Verwaltung der integrierten Schalter, die auf der Rückseite des Gehäuses installiert sind. Diese Out-of-Band-Verwaltung bezieht auch die IP-Adressen der Geräte ein, sodass Sie von dieser zentralen Stelle aus problemlos auf jedes verbundene Gerät zugreifen können.

Die Verwaltung jedes installierten Blades ähnelt der eines eigenständigen Supermicro-Servers. Aktivitäten wie BIOS-Updates werden über seinen BMC durchgeführt, wie in a vorheriges Experiment. Dieser zentralisierte Ansatz ermöglicht eine schnelle Bereitstellung und konsistente Updates auf allen Blades und stellt sicher, dass jede Komponente mit der neuesten Firmware und den neuesten Einstellungen arbeitet. Eine solche Einheitlichkeit ist für die Aufrechterhaltung der Systemstabilität und -leistung von entscheidender Bedeutung, insbesondere in dichten Rechenumgebungen, in denen Konfigurationsunterschiede zu erheblichen Ineffizienzen führen können.

Die Rolle des CMM bei der Verwaltung des SuperBlade X13 erstreckt sich auf die Überwachung und Steuerung des Zustands des gesamten Racks. Es überwacht Stromverbrauch, Kühlung, Netzwerk und Systemzustand und bietet einen ganzheitlichen Überblick über die Leistung des Racks. Diese Überwachung ist von entscheidender Bedeutung, um potenzielle Probleme zu erkennen und zu beheben, bevor sie eskalieren, Ausfallzeiten zu minimieren und eine optimale Betriebseffizienz aufrechtzuerhalten.

Das CMM übernimmt neben der Verwaltung der Server-Blades auch die Netzwerkverwaltung über dieselbe einzige Schnittstelle. Dadurch können Benutzer problemlos auf die Switch-Verwaltungsbildschirme beider angeschlossener Switches zugreifen und diese anzeigen, wobei ihre jeweiligen IP-Adressen angezeigt werden. Bei größeren Einsätzen kann das CMM auch mit benachbarten Systemen kommunizieren und so ein umfassendes Managementpaket bereitstellen.

Im Wesentlichen verwandelt das CMM die Verwaltung des SuperBlade X13 von einer Reihe einzelner Aufgaben in einen zusammenhängenden, optimierten Prozess. Es ist vergleichbar mit einer Kommandozentrale, die die Verwaltung jedes Blades vereinfacht und die Gesamtleistung und Zuverlässigkeit des gesamten Racks verbessert. Dieser Ansatz zur Blade- und Rack-Verwaltung ist für Hardware-Verwaltungsteams hilfreich, insbesondere in Rechenzentren, in denen Skalierbarkeit, Zuverlässigkeit und effiziente Zeitnutzung von größter Bedeutung sind.

Supermicro SuperBlade SBI-411E-5G – NVIDIA H100-Leistung

Im Hochleistungsrechnen ist der SuperBlade SBI-411E-5G mit einem NVIDIA H100 ein vielseitiges und leistungsstarkes Werkzeug für verteiltes Training und Single-Blade-Inferencing. Diese Flexibilität zeigt sich besonders deutlich, wenn die Rechenanforderungen erheblich schwanken, beispielsweise in Rechenzentren, die unterschiedliche Arbeitslasten verwalten.

Supermicro X13 SuperBlade – NVIDIA H100 GPU

Verteilte Trainingsszenarien

Die SuperBlade H100-Knoten zeichnen sich durch verteiltes Training aus, ein Prozess, der für komplexe KI-Modelle von entscheidender Bedeutung ist. Stellen Sie sich ein Szenario vor, in dem ein groß angelegtes neuronales Netzwerkmodell anhand eines riesigen Datensatzes trainiert wird. Das Training des Modells ist auf mehrere Blades verteilt, von denen jedes die Leistung der fortschrittlichen GPUs des H100 nutzt. Diese Verteilung beschleunigt den Trainingsprozess und ermöglicht die Handhabung größerer Modelle und unpraktischer Datensätze auf einzelnen Computern.

Dabei spielt das 200G InfiniBand eine entscheidende Rolle. Seine Kommunikation mit hoher Bandbreite und geringer Latenz ist für verteiltes Training unerlässlich, bei dem ein schneller und effizienter Datenaustausch zwischen Blades von entscheidender Bedeutung ist. Diese Konnektivität stellt sicher, dass die Daten und Lernparameter konsistent und schnell über alle Blades hinweg synchronisiert werden, wodurch Engpässe, die bei der Verarbeitung großer Datenmengen häufig auftreten, minimiert werden.

Verteilte Schulung im Labor

Verteiltes Training hat die Art und Weise, wie wir groß angelegte maschinelle Lern- und Deep-Learning-Aufgaben angehen, revolutioniert. Daten sind König, und die Fähigkeit, große Mengen an Trainingsdaten effizient zu verarbeiten, war seit einiger Zeit der Engpass. Hier werden Open-Source-Bibliotheken und leistungsstarke Hardware wie der Supermicro SuperBlade

Open-Source-Bibliotheken wie TensorFlow und PyTorch sind zu einem festen Bestandteil der Community für maschinelles Lernen geworden und werden von allen Herstellern unterstützt und validiert. Sie bieten robuste, flexible und sich ständig weiterentwickelnde Frameworks für die Entwicklung und Skalierung von Modellen für maschinelles Lernen. Der Rechenaufwand kann enorm sein, wenn komplexe Modelle trainiert werden, wie sie beispielsweise in der Verarbeitung natürlicher Sprache oder in der Bildverarbeitung verwendet werden. Hier kommt der SuperBlade X13 ins Spiel.

GPU-fähiger X13 Blade

Die SuperBlade Mithilfe der SBI-13E-411G-Blades mit doppelter Breite und halber Höhe, die mit H5-PCIe-GPUs ausgestattet sind, unterstützt der SuperBlade . Wichtig ist, dass die Blades jederzeit neu konfiguriert werden können, was sie äußerst flexibel macht, wenn sich die KI-Arbeitslasten eines Unternehmens ändern.

Die Integration von InfiniBand in das Gehäuse mit extrem geringer Latenz und hohem Durchsatz trägt dazu bei, dass Daten und Modellparameter ständig zwischen Knoten übertragen werden. Dieses Hochgeschwindigkeitsnetzwerk reduziert die Datenübertragungszeit erheblich, was in verteilten Systemen oft ein Engpass ist, insbesondere wenn es um große Datensätze und komplexe Modellarchitekturen geht.

Die Integration von Open-Source-Bibliotheken für verteilte Schulungen in diesem Setup umfasste mehrere wichtige Schritte. Zuerst mussten wir optimierte Container und Bibliotheken auswählen, um die GPU-Funktionen voll auszunutzen. Dabei werden CUDA-fähige Versionen dieser Bibliotheken verwendet, um sicherzustellen, dass sie die Rechenleistung der GPU direkt nutzen können. Zweitens muss InfiniBand mit NCCL (NVIDIA Collective Communications Library) genutzt werden, um optimierte Kommunikationsroutinen für die kollektive Multi-GPU/Multi-Node-Kommunikation bereitzustellen.

In der Praxis führt beim Einrichten einer verteilten Trainingsaufgabe auf dieser Plattform jeder Knoten (in diesem Fall jeder SuperBlade) einen Teil des Modells aus. Die Modellparameter werden über die Knoten hinweg in Echtzeit synchronisiert, was durch die Geschwindigkeit und geringe Latenz des InfiniBand-Netzwerks erleichtert wird. Diese Synchronisation ist entscheidend für die Konvergenz und Genauigkeit des Modells.

TensorRT und LLMs

Das TensorRT Large Language Model (LLM) von NVIDIA stellt einen bedeutenden Fortschritt in der künstlichen Intelligenz und im maschinellen Lernen dar. TensorRT LLM wurde auf Effizienz und Geschwindigkeit ausgelegt und ist eine zentrale Komponente im Ökosystem der Blade-Serversysteme, das für seine außergewöhnliche Leistung bei der Verarbeitung komplexer KI-Aufgaben bekannt ist. Sein Design ist auf die Bedürfnisse von technischen Fachleuten und IT-Entscheidungsträgern zugeschnitten und bietet eine robuste Lösung für die Bewältigung der anspruchsvollen Rechenanforderungen moderner Rechenzentren.

Das technische Framework von NVIDIAs TensorRT LLM ist darauf ausgelegt, das volle Potenzial von KI und Deep Learning auszuschöpfen. Es wurde entwickelt, um die Inferenz neuronaler Netzwerke zu optimieren, was es zur idealen Wahl für Hochleistungsrechnerumgebungen macht. Das TensorRT LLM erreicht eine bemerkenswerte Effizienz durch seine Fähigkeit, trainierte Modelle in optimierte Laufzeit-Engines umzuwandeln, wodurch die Latenz deutlich reduziert und der Durchsatz erhöht wird. Diese Funktion kommt vor allem Blade-Server-Systemen zugute, bei denen eine schnelle Datenverarbeitung und minimale Antwortzeiten entscheidend sind. Darüber hinaus erhöht die Kompatibilität mit der umfangreichen GPU-Palette von NVIDIA die Vielseitigkeit und macht es zu einer skalierbaren Lösung in unterschiedlichen IT-Umgebungen.

Eines der herausragenden Merkmale von NVIDIAs TensorRT LLM ist seine Fähigkeit zum verteilten Training. Dieser Aspekt ist besonders wichtig in Umgebungen, in denen groß angelegte Modelle für maschinelles Lernen die Norm sind. Durch verteiltes Training kann TensorRT LLM mehrere Systeme nutzen und die Rechenlast effizient verteilen. Dies führt zu einer erheblichen Reduzierung der Trainingszeit für komplexe Modelle, ohne dass die Genauigkeit oder Leistung beeinträchtigt wird. Durch die Möglichkeit, verteilte Schulungen über verschiedene Knoten hinweg durchzuführen, lässt sich TensorRT LLM hervorragend an umfangreiche IT-Infrastrukturen anpassen, die häufig in großen Organisationen und Forschungseinrichtungen zu finden sind. Darüber hinaus erleichtert dieser verteilte Ansatz die Handhabung riesiger Datensätze, eine häufige Herausforderung bei fortgeschrittenen KI-Projekten, und ermöglicht so eine robustere und anspruchsvollere KI-Modellentwicklung.

Die Optimierungs- und Hochleistungs-Inferenzfunktionen von TensorRT LLM sind ideal für die dichte, vernetzte Natur von Blade-Servern geeignet. Durch die Nutzung von TensorRT LLM können Blade-Systeme komplexe KI-Modelle effizienter ausführen, was zu schnelleren Verarbeitungszeiten und reduzierter Latenz führt. Dies ist besonders wichtig in Szenarien, in denen eine Datenanalyse und Entscheidungsfindung in Echtzeit unerlässlich ist, beispielsweise bei der Finanzmodellierung oder der Gesundheitsdiagnostik.

Durch die Kombination des Supermicro SuperBlade mit den verteilten Schulungsmöglichkeiten und der Anpassungsfähigkeit von TensotRT LLM über mehrere Systeme hinweg erhöht sich der Wert des Assets für technische Fachleute und IT-Entscheidungsträger. Durch die Nutzung dieser leistungsstarken Kombination können Unternehmen große KI-Projekte effizient abwickeln und so eine schnellere Verarbeitung, kürzere Latenzzeiten und skalierbare KI-Bereitstellungen gewährleisten. Um dies zu ermöglichen, verwenden wir das Quantum InfiniBand-Netzwerk innerhalb des Gehäuses.

Single-Blade-Inferenz-Leistungsbenchmark mit MLPerf

Die Architektur von einer CPU zu einer GPU pro Knoten in den GPU-Blades bietet potenzielle Vorteile für KI- und Datenanalyse-Workloads, insbesondere für Single-Blade-Inferenzaufgaben. Dieses Design sorgt für ein ausgewogenes Verhältnis der Rechenleistung und ermöglicht so eine optimale Nutzung der GPU-Fähigkeiten.

Um die Leistung der Single-Blade-Inferenz zu testen, haben wir MLPerf 3.1 Inference sowohl offline als auch auf dem Server ausgeführt. BERT (Bidirektionale Encoder-Repräsentationen von Transformers) ist ein transformatorbasiertes Modell, das hauptsächlich für Aufgaben der Verarbeitung natürlicher Sprache wie Beantwortung von Fragen, Sprachverständnis und Satzklassifizierung verwendet wird. ResNet-50 ist ein Convolutional Neural Network (CNN)-Modell, das häufig für Bildklassifizierungsaufgaben verwendet wird. Es handelt sich um eine Variante des ResNet-Modells mit 50 Schichten, die für ihre tiefe Architektur und dennoch effiziente Leistung bekannt ist.

Einzelknoten-Inferenz
ResNet-50 – Offline: 46,326.6
ResNet-50 – Server: 47,717.4
BERT K99 – Offline: 3,702.4
BERT K99 – Server: 4,564.11
  • Offline-Modus: Dieser Modus misst die Leistung eines Systems, wenn alle Daten gleichzeitig zur Verarbeitung verfügbar sind. Es ähnelt der Stapelverarbeitung, bei der das System einen großen Datensatz in einem einzigen Stapel verarbeitet. Dieser Modus ist von entscheidender Bedeutung für Szenarien, in denen die Latenz nicht im Vordergrund steht, Durchsatz und Effizienz jedoch.
  • Servermodus: Im Gegensatz dazu bewertet der Servermodus die Leistung des Systems in einem Szenario, das eine reale Serverumgebung nachahmt, in der Anfragen einzeln eingehen. Dieser Modus ist latenzempfindlich und misst, wie schnell das System auf jede Anfrage reagieren kann. Dies ist von entscheidender Bedeutung für Echtzeitanwendungen, bei denen eine sofortige Reaktion erforderlich ist, beispielsweise bei Webservern oder interaktiven Anwendungen.

Bei Inferenzaufgaben ist die GPU in erster Linie für den rechenintensiven Aufwand verantwortlich. Durch die Kombination mit einer dedizierten CPU stellt das System sicher, dass die GPU effizient arbeiten kann, ohne dass es zu Engpässen durch gemeinsam genutzte CPU- oder Plattformressourcen kommt. Dies ist in Echtzeit-Datenverarbeitungsszenarien wie Live-Videoanalysen oder spontanen Sprachübersetzungen von entscheidender Bedeutung.

Interessanterweise haben wir festgestellt, dass dieses CPU-zu-GPU-Verhältnis von 1:1 eine bessere Vorhersagbarkeit der Leistung ermöglicht. Jeder Knoten arbeitet unabhängig, was konsistente Verarbeitungszeiten gewährleistet und die Variabilität bei Inferenzaufgaben verringert. Diese Vorhersehbarkeit ist in Umgebungen, in denen die Reaktionszeit von entscheidender Bedeutung ist, von entscheidender Bedeutung.

Insgesamt maximiert die Konfiguration von einer CPU zu einer GPU im SuperBlade H100 die Effektivität beider Komponenten. Dadurch wird sichergestellt, dass jeder Knoten eine optimale Leistung für Inferenzaufgaben liefert, wobei jeder Knoten unabhängige Modelle und Prozesse betreibt. Diese Architektur verbessert die Fähigkeit des Systems, Anforderungen an die Echtzeit-Datenverarbeitung effizient und zuverlässig zu bewältigen.

Adaptives Workload-Management

Nach Berücksichtigung aller Informationen ist klar, dass das SuperBlade-System äußerst anpassungsfähig ist. Zu Spitzenzeiten, wenn die Nachfrage nach Inferenzen hoch ist, können dynamisch mehr GPU-fähige Blades für die Bewältigung dieser Aufgaben zugewiesen werden, um eine effiziente Bearbeitung von Echtzeitanfragen zu gewährleisten. Umgekehrt könnten diese Ressourcen außerhalb der Hauptverkehrszeiten verlagert werden, um sich auf die Feinabstimmung von KI-Modellen oder die Verarbeitung weniger zeitkritischer Aufgaben zu konzentrieren. Diese Flexibilität ermöglicht eine optimale Nutzung der Ressourcen und stellt sicher, dass das SuperBlade-System robust und effizient bei der Bewältigung unterschiedlicher Rechenlasten ist.

Vorteile von 200G NVIDIA Quantum InfiniBand in diesen Szenarien

Die Einbindung von 200G InfiniBand in das SuperBlade H100-System erweitert diese Szenarien, indem es das Rückgrat für die Hochgeschwindigkeits-Datenübertragung bildet. Verteiltes Training ermöglicht eine schnellere Synchronisierung von Daten über Blades hinweg, was für die Aufrechterhaltung der Konsistenz und Geschwindigkeit des Trainingsprozesses von entscheidender Bedeutung ist. Single-Blade-Inferenz stellt sicher, dass große Datensätze schnell zur Verarbeitung auf den Blade verschoben werden können, wodurch die Latenz reduziert und der Durchsatz erhöht wird.

Was ist los mit Quantum InfiniBand?

InfiniBand, ein Eckpfeiler des Hochleistungsrechnens, ist eine Hochgeschwindigkeits-Verbindungstechnologie, die ursprünglich entwickelt wurde, um den ständig steigenden Anforderungen an Datenübertragung und Kommunikation in Supercomputing-Clustern gerecht zu werden. Diese hochspezialisierte Netzwerklösung hat sich im Laufe der Jahre weiterentwickelt und bietet extrem niedrige Latenz und hohe Bandbreite, was sie ideal für die Verbindung von Servern, Speichersystemen und anderen Komponenten in HPC-Umgebungen macht.

Die Supermicro X13-Blades, die uns geliefert wurden, waren mit 200G InfiniBand-Netzwerk und 25G Ethernet ausgestattet. Dies war besonders nützlich bei der Arbeit an verteilten Schulungen und anderen latenz- und datenintensiven Aufgaben. Nach einigen sehr unterschiedlichen (und zeitaufwändigen) Epochen des oben erwähnten Trainings kamen wir zu dem Schluss, dass wir eine andere Metrik benötigten, um die realen Testmetriken des InfiniBand-Netzwerks bereitzustellen, die in den unzähligen Pins des Blade-Chassis verborgen sind. Angesichts der extremen Variabilität der Feinabstimmung von Lauf zu Lauf wäre es unverantwortlich, zu versuchen, die Auswirkungen oder das Fehlen solcher Auswirkungen der Verwendung eines solchen Mehrknotensystems für diese Aufgaben zu quantifizieren. Die Ergebnisse waren mehr als überraschend.

Enter NVIDIA ClusterKit. NVIDIA ClusterKit ist ein Toolkit zum Testen des vollen Potenzials von GPU-Clustern mit mehreren Knoten und bietet KI- und HPC-Praktikern eine interessante Suite von Tools, mit denen sie die Leistung, Effizienz und Skalierbarkeit ihrer Arbeitslasten messen können.

Wir haben uns auf zwei Schlüsseltools in ClusterKit konzentriert:

  • Bandbreitentests: Die Bandbreite ist eine entscheidende Messgröße im HPC und spiegelt die Datenmenge wider, die in einer bestimmten Zeit über das Netzwerk übertragen werden kann. Wir haben NVIDIA ClusterKit verwendet, um die bidirektionale (Duplex-)Bandbreite zwischen Knoten im Supermicro SuperBlade-Setup zu messen. Duplexmessungen sind unerlässlich, da sie das reale Szenario widerspiegeln, in dem Daten gleichzeitig in beide Richtungen fließen.
  • Latenztests: Die Latenz oder die Zeit, die eine Nachricht benötigt, um von einem Punkt zum anderen im Netzwerk zu gelangen, ist eine weitere wichtige Leistungsmetrik. Eine niedrige Latenz ist bei eng gekoppelten HPC-Anwendungen von Bedeutung. Die Fähigkeit von NVIDIA ClusterKit, Duplex-Latenzen genau zu messen, lieferte wertvolle Einblicke in die Reaktionsfähigkeit des InfiniBand-Netzwerks auf den SuperBlades.

SuperBlade InfiniBand- und H100-GPU-Benchmarking-Ergebnisse mit ClusterKit

In diesem Abschnitt ist es wichtig zu verstehen, dass jeder Knoten durch ein eindeutiges Tag identifiziert wird (z. B. smci-a7, smci-a1 usw.). Die Bezeichnung -1, -3, -5 und -7 ist der Hostname, der die physische Position des Blades im Gehäuse widerspiegelt.

Der erste Test konzentrierte sich auf die Messung der bidirektionalen Bandbreite zwischen verschiedenen Knoten im Cluster. Der Test umfasste eine Nachrichtengröße von 8,388,608 Bytes, die 16 Mal wiederholt wurde.

GPU-Direkttests

Zunächst werfen wir einen Blick auf die GPU Direct-Tests. Dies gibt den absolut maximalen Durchsatz der Blade-Plattform unter Verwendung der neuesten und besten SDKs und Toolkits an, die zum Zeitpunkt des Schreibens verfügbar waren. Es ist wichtig zu beachten, dass der Test die Bandbreite im Duplex-Modus angibt, d. h. die Bandbreite ist insgesamt in beide Richtungen. Die Einzelrichtung wäre etwa die Hälfte. Die wichtigste Erkenntnis ist, dass der limitierende Faktor für die Bandbreite das 200G-InfiniBand ist, aber wie wir später sehen werden, gibt dies keinen großen Anlass zur Sorge.

Infiniband ClusterKit-Tests auf den Supermicro SuperBlades mit Divyansh Jain

Die folgende Matrix zeigt die bidirektionale Bandbreite mit GPUDirect.

Bandbreitenmatrix MB/s
Rang/Knoten smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
Latenz uSek

Als nächstes folgten bemerkenswerte Latenztestergebnisse, die in Mikrosekunden gemessen wurden. Die GPU Direct-Tests waren genauso gut wie die Verwendung mehrerer GPUs lokal auf einem Host.

Rang smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

GPU-Nachbartests

Kommen wir nun zu den GPU-Nachbartests. Auch hier wird die Bandbreite im Duplex-Modus gemeldet, was bedeutet, dass die Bandbreite insgesamt in beide Richtungen gilt. Die Einzelrichtung wäre etwa die Hälfte. Die folgende Matrix zeigt die bidirektionale Bandbreite zwischen den H100-Karten in jedem der vier Knoten. Dabei wird die Beschleunigung der GPUDirect-Bibliotheken nicht genutzt. Die Bezeichnung 1, 3, 5 und 7 ist der Hostname, der die physische Position des Blades im Gehäuse widerspiegelt.

Supermicro X13 SuperBlade InfiniBand-Switch

SBS-IBS-H4020 HRD InfiniBand-Switch

GPU-Nachbarbandbreite (MB/s)

Der „GPU Neighbor Bandwidth“-Test misst die Datenübertragungsrate zwischen benachbarten GPUs innerhalb desselben Systems oder Knotens. Diese Metrik ist von entscheidender Bedeutung für Anwendungen, die einen häufigen Datenaustausch zwischen GPUs in unmittelbarer Nähe erfordern, wie z. B. parallele Verarbeitungsaufgaben mit mehreren GPUs. Je höher die Bandbreite, desto schneller die Datenübertragung, was zu einer potenziell verbesserten Leistung bei GPU-intensiven Anwendungen führt.

GPU Bandbreite (MB/s)
smci-a7 mit smci-a1 30,653.9
smci-a3 mit smci-a5 30,866.7
Durchschnittlich 30,760.3
GPU-Speicherbandbreite (MB/s)

Der Test „GPU-Speicherbandbreite“ bewertet die Geschwindigkeit, mit der Daten von der GPU selbst aus dem Speicher einer GPU gelesen oder darin gespeichert werden können. Diese Bandbreite ist ein entscheidender Leistungsaspekt, insbesondere für Anwendungen, die große Datensätze umfassen oder einen hohen Durchsatz für Aufgaben wie Bildverarbeitung, Simulationen oder Deep Learning erfordern. Eine höhere Speicherbandbreite weist darauf hin, dass eine GPU besser in der Lage ist, große Datenmengen effizient zu verarbeiten. Dieser Test zeigt uns, dass die X13 Blades problemlos mit den H100-GPUs zurechtkommen.

GPU Bandbreite
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
Durchschnittlich 55,541.6
GPU-zu-GPU-Bandbreite (MB/s)

Dieser Test misst die bidirektionale Bandbreite zwischen verschiedenen GPUs. Dies ist wichtig für Aufgaben, die komplexe Berechnungen umfassen, die auf mehrere GPUs verteilt sind und bei denen die Geschwindigkeit der Datenübertragung zwischen den GPUs die Gesamtverarbeitungszeit erheblich beeinflussen kann. Eine hohe GPU-zu-GPU-Bandbreite ist vorteilhaft für die Beschleunigung von Multi-GPU-Workflows und parallelen Rechenaufgaben.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
Durchschnittlich 30,762.9
GPU0-zu-Remote-Host-Bandbreite (MB/s)

Der Test „GPU0 to Remote Host Bandwidth“ quantifiziert die Datenübertragungsrate zwischen der primären GPU (GPU0) und einem Remote-Hostsystem. Dies ist in verteilten Computerumgebungen von entscheidender Bedeutung, in denen Daten häufig zwischen der Haupt-GPU und anderen Teilen eines vernetzten Systems verschoben werden müssen, was sich auf Aufgaben wie verteiltes Deep-Learning-Training oder Datenanalyse auf Remote-Servern auswirkt.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
GPU-Nachbarlatenz (µs)

Der „GPU Neighbor Latency“-Test misst die Zeit, die eine kleine Datenmenge benötigt, um von einer GPU zur benachbarten GPU zu gelangen. Eine geringere Latenz ist insbesondere bei Anwendungen wünschenswert, die eine Echtzeit-Datenverarbeitung oder eine Hochgeschwindigkeitskommunikation zwischen GPUs erfordern, wie etwa Echtzeit-Rendering oder komplexe wissenschaftliche Simulationen.

GPU Latency
smci-a7 mit smci-a1 11.03
smci-a3 mit smci-a5 11.01
GPU-zu-Remote-Host-Latenz (µs)

Der Test „GPU0 to Remote Host Latency“ misst die Verzögerung bei der Datenkommunikation zwischen der primären GPU (GPU0) und einem Remote-Hostsystem. Diese Latenz ist ein entscheidender Faktor in verteilten Computerumgebungen und beeinflusst die Reaktionsfähigkeit und Effizienz von Anwendungen, die auf der Interaktion zwischen einer GPU und Remote-Systemen basieren, wie z. B. Cloud-basiertes Gaming oder Remote-Datenverarbeitung.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
Durchschnittlich 3.37

Die NVIDIA ClusterKit-Tests ergaben beeindruckende Leistungskennzahlen für das InfiniBand-Netzwerk auf den Supermicro SuperBlades. Die Duplex-Bandbreitentests ergaben hohe Datenübertragungsraten, was auf eine effiziente Nutzung der InfiniBand-Funktionen hinweist. Ebenso zeigten die Latenztests minimale Verzögerungen, was die Eignung des Netzwerks für anspruchsvolle HPC-Aufgaben unterstreicht. Dies bedeutet, dass diese Plattform eine Leistung erbringt, die mit Standalone-Systemen mithalten kann, und eine wesentlich höhere Rechen- und Netzwerkdichte bietet – und das alles in einer einheitlichen Lösung.

Testen eigenständiger GPU-Server

Als nächstes haben wir die 4x NVIDIA H100 in eins verlegt Supermicro 4U AMD EPYC GPU-Server das alle 4 gleichzeitig unterstützen kann, haben wir versucht, die GPU-zu-GPU und die Latenz zu testen. Es ist wichtig zu verstehen, dass wir lediglich versuchen, das Leistungsprofil der Karten in diesem Server zu verstehen, ohne die Blade-übergreifende Kommunikation. Obwohl dieser 4U-Server hinsichtlich der unterstützten Karten flexibel ist, verfügt er nicht über die extreme Zusammensetzbarkeit, die das Supermicro X13 SuperBlade-Chassis bietet. Natürlich bietet Supermicro wie gewohnt für jede Anwendung eine Lösung, auch für flüssigkeitsgekühlte GPUs mit Sockel.

Schauen wir uns zunächst die Peer-to-Peer-Bandbreite der 4 GPUs in einer Plattform an.

 Schreibbandbreite (GB/s) – Unidirektional

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

Lesebandbreite (GB/s) – Unidirektional

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

Hierbei ist zu beachten, dass sich die GPUs GPU0 und GPU1 auf einem NUMA-Knoten und GPU2 und GPU3 auf einem anderen NUMA-Knoten befinden. Hier können Sie deutlich erkennen, welche Auswirkungen die Verwendung des NUMA-Knotens auf die Leistung hat.

Copy Engine (CE) – Schreiblatenz (us)

Abschließend messen wir die GPU-zu-GPU-Latenz.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

Wie erwartet verschafft uns die Verlagerung aller GPUs auf eine einzige Plattform eine doppelt so hohe Bandbreite im Vergleich zu den 2G-IB-Verbindungen des Blade. Die Bandbreite mag hier für die Anwendung eine Überlegung sein, aber wenn es um Latenzzahlen geht, die in der Größenordnung von Mikrosekunden arbeiten, gibt es keine große Veränderung zu vermelden, wenn man von durchschnittlich 200us GPU zu GPU, während alles in einem Gehäuse untergebracht ist, auf nur noch 1.6 µs geht 1.5 us in den Blades, wenn der PCIe-Bus, der IB-Switch und zurück zur GPU durchlaufen werden müssen, ist bemerkenswert. Das ist aber nicht die ganze Geschichte.

Schlussfolgerung

Der Supermicro X13 SuperBlade mit seinen Emerald Rapids-CPUs und NVIDIA H100-GPUs ist eine willkommene Weiterentwicklung dessen, was Blade-Server sein können. Seine Fähigkeiten erstrecken sich über verschiedene rechenintensive Aufgaben und machen es zu einer vielseitigen und robusten Lösung für Branchen von der Datenanalyse bis hin zu KI und Cloud Computing. Da die Nachfrage nach Hochleistungsrechnern weiter wächst, ist der X13 bereit, diese Herausforderungen zu meistern, und demonstriert Supermicros Engagement für Innovation und Exzellenz in der Servertechnologie.

Unter Berücksichtigung der Testergebnisse sind wir besonders an dieser Plattform interessiert, da sie aus ganzheitlicher Sicht einzigartig und äußerst anpassungsfähig ist. Es ist wichtig, die Anwendung der Plattform zu kontextualisieren.

Stellen Sie sich ein Szenario in einer Forschungsabteilung vor, in dem Sie das Supermicro X13 Blade-System für Ihre gesamte Rechenleistung in Ihrem Rack haben. Sie können die in die Plattform integrierte zentralisierte Verwaltungsinfrastruktur nicht nur zur Steuerung der Blades und der Plattform selbst nutzen, sondern auch als Drehscheibe für die Steuerung, Vernetzung und Verwaltung anderer Geräte. Wenn Sie einen ausreichend leistungsstarken Speicherserver an die SuperBlades anschließen, um die datenhungrigen GPUs zu versorgen, können Sie alle Bits in Zeilengeschwindigkeit in Ihre Modelle einspeisen. In diesem fiktiven Szenario können wir alle unsere GPUs tagsüber von verschiedenen Forschern nutzen lassen und dann, wenn die Zeit gekommen ist, alle Blades über das InfiniBand verbinden und sie zusammenarbeiten lassen.

Die Bandbreitentests der Eins-zu-Eins-Beziehung von CPU und GPU zeigten außerdem, dass Sie bei einem voll ausgelasteten Blade-Chassis einen einzelnen Server mit Add-In-Card-GPUs mit dem Blade-System übertreffen können. Mit einem richtig konzipierten verteilten Trainingsworkflow könnten Sie eine Leistung erzielen, die im Wesentlichen genauso gut oder sogar besser ist als mit allen GPUs in einem einzigen Knoten, aber jetzt erhalten Sie eine Plattform, die problemlos doppelte Aufgaben bewältigen kann und die GPU-Vorabkosten halbiert . Dank der Unterstützung der neuesten CPUs freuen wir uns nach der Implementierung auf den Wechsel von HDR InfiniBand zu NDR, da die SuperBlades damit die Leistung einer einzelnen GPU-Serverplattform übertreffen würden.

Das Supermicro Während unserer längeren Zeit mit der Plattform stießen wir auf Bedarf an DRAM-, CPU- und GPU-Änderungen oder, wie es in der Welt der KI heißt, „an einem anderen Tag“, die alle von der Plattform problemlos bewältigt werden konnten. Insgesamt ist die Plattform solide und erweist sich als faszinierendes und leistungsstarkes Gerät für den KI-Bereich, ohne dass noch viele weitere Wünsche offen bleiben. Angesichts des Preises konkurrierender Systeme ist dies nahezu unschlagbar, wenn man die Flexibilität eines Blades nutzen kann.

Supermicro X13 SuperBlade 

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed