NVIDIA Spectrum-X umfasst adaptives Routing, um die Häufigkeit von Kollisionen einzudämmen und die Bandbreitennutzung zu optimieren.
KI-Fabriken benötigen für einen effizienten Betrieb mehr als nur leistungsstarke Rechenstrukturen. Während East-West-Networking eine entscheidende Rolle bei der Verbindung von GPUs spielt, sind Storage Fabrics – die für die Verknüpfung von Hochgeschwindigkeits-Speicherarrays verantwortlich sind – ebenso wichtig. Die Speicherleistung hat erhebliche Auswirkungen auf mehrere Phasen des KI-Lebenszyklus, darunter Trainings-Checkpointing und Inferenztechniken wie Retrieval-Augmented Generation (RAG). Um diesen Anforderungen gerecht zu werden, haben NVIDIA und sein Speicherökosystem die NVIDIA Spectrum-X-Netzwerkplattform erweitert, um die Leistung der Storage Fabric zu verbessern und so die Zeit bis zu KI-Erkenntnissen zu verkürzen.
Netzwerkkollisionen in KI-Clustern verstehen
Netzwerkkollisionen treten auf, wenn mehrere Datenpakete gleichzeitig versuchen, denselben Netzwerkpfad zu durchlaufen, was zu Störungen, Verzögerungen und gelegentlich zur Notwendigkeit einer erneuten Übertragung führt. In großen KI-Clustern sind solche Kollisionen wahrscheinlicher, wenn GPUs voll ausgelastet sind oder aufgrund datenintensiver Vorgänge viel Datenverkehr herrscht.
Da GPUs gleichzeitig komplexe Berechnungen durchführen, können Netzwerkressourcen überlastet werden, was zu Kommunikationsengpässen führt. Spectrum-X wurde entwickelt, um diesen Problemen entgegenzuwirken, indem es den Datenverkehr automatisch und dynamisch umleitet und Überlastungen bewältigt. Dadurch wird sichergestellt, dass kritische Daten ohne Unterbrechungen fließen, ohne dass Implementierungen wie Metas Enhanced ECMP erforderlich sind, das im LLAMA 3 Papier.
Optimieren der Speicherleistung mit Spectrum-X
NVIDIA Spectrum-X führt adaptive Routing-Funktionen ein, die Datenflusskollisionen abmildern und die Bandbreitennutzung optimieren. Im Vergleich zu RoCE v2, dem in KI-Rechner- und Speicherstrukturen weit verbreiteten Ethernet-Netzwerkprotokoll, erreicht Spectrum-X eine überlegene Speicherleistung. Tests zeigen eine Verbesserung der Lesebandbreite um bis zu 48 % und eine Steigerung der Schreibbandbreite um 41 %. Diese Fortschritte führen zu einer schnelleren Ausführung von KI-Workloads, einer Verkürzung der Abschlusszeiten von Trainingsaufträgen und einer Minimierung der Inter-Token-Latenz für Inferenzaufgaben.
Da die Komplexität von KI-Workloads zunimmt, müssen sich auch die Speicherlösungen entsprechend weiterentwickeln. Führende Speicheranbieter wie DDN, VAST Data und WEKA haben sich mit NVIDIA zusammengeschlossen, um Spectrum-X in ihre Speicherlösungen zu integrieren. Durch diese Zusammenarbeit können KI-Speicherstrukturen modernste Netzwerkfunktionen nutzen und so Leistung und Skalierbarkeit verbessern.
Der Supercomputer Israel-1: Validierung der Auswirkungen von Spectrum-X
NVIDIA baute den generativen KI-Supercomputer Israel-1 als Testumgebung, um die Leistung von Spectrum-X in realen Szenarien zu optimieren. Das Israel-1-Team führte umfangreiche Benchmarks durch, um die Auswirkungen von Spectrum-X auf die Leistung des Speichernetzwerks zu bewerten. Mithilfe des Flexible I/O Tester (FIO)-Benchmarks verglichen sie eine standardmäßige RoCE v2-Netzwerkkonfiguration mit aktiviertem adaptiven Routing und Überlastungskontrolle von Spectrum-X.
Die Tests umfassten Konfigurationen von 40 bis 800 GPUs und zeigten durchweg eine überlegene Leistung mit Spectrum-X. Die Verbesserungen der Lesebandbreite lagen zwischen 20 % und 48 %, während die Schreibbandbreite Zuwächse zwischen 9 % und 41 % verzeichnete. Diese Ergebnisse stimmen eng mit den Leistungsverbesserungen überein, die in Partner-Ökosystemlösungen beobachtet wurden, und bestätigen die Wirksamkeit der Technologie in KI-Speicherstrukturen weiter.
Die Rolle von Speichernetzwerken bei der KI-Leistung
Die Effizienz des Speichernetzwerks ist für KI-Operationen von entscheidender Bedeutung. Das Training von Modellen dauert oft Tage, Wochen oder sogar Monate und erfordert regelmäßige Checkpointing um Datenverlust durch einen Systemausfall zu verhindern. Wenn große KI-Modelle Checkpoint-Zustände im Terabyte-Bereich erreichen, sorgt eine effiziente Speichernetzwerkverwaltung für eine nahtlose Trainingskontinuität.
RAG-basierte Inferenz-Workloads unterstreichen die Bedeutung leistungsstarker Speicherstrukturen noch weiter. Durch die Kombination eines LLM mit einer dynamischen Wissensbasis verbessert RAG die Antwortgenauigkeit, ohne dass das Modell neu trainiert werden muss. Diese Wissensbasen werden normalerweise in großen Vektordatenbanken gespeichert und erfordern einen Speicherzugriff mit geringer Latenz, um eine optimale Inferenzleistung aufrechtzuerhalten, insbesondere in generativen KI-Umgebungen mit mehreren Mandanten, die große Abfragevolumina verarbeiten.
Adaptives Routing und Überlastungskontrolle auf den Speicher anwenden
Spectrum-X führt wichtige Ethernet-Netzwerkinnovationen ein, die von InfiniBand adaptiert wurden, um die Leistung der Speicherstruktur zu verbessern:
- Adaptives Routing: Spectrum-X gleicht den Netzwerkverkehr dynamisch aus, um Kollisionen mit Elefantenströmen während Checkpointing und datenintensiven Vorgängen zu verhindern. Spectrum-4-Ethernet-Switches analysieren Echtzeit-Überlastungsdaten und wählen für jedes Paket den am wenigsten überlasteten Pfad aus. Anders als bei herkömmlichem Ethernet, wo Pakete, die nicht in der richtigen Reihenfolge sind, erneut übertragen werden müssen, verwendet Spectrum-X SuperNICs und DPUs, um Pakete am Ziel neu zu ordnen. Dies gewährleistet einen reibungslosen Betrieb und eine höhere effektive Bandbreitennutzung.
- Staukontrolle: Checkpointing und andere KI-Speichervorgänge führen häufig zu einer Überlastung von vielen zu eins, wenn mehrere Clients versuchen, auf einen einzigen Speicherknoten zu schreiben. Spectrum-X mildert dies, indem es die Dateneinspeisungsraten mithilfe hardwarebasierter Telemetrie reguliert und so Überlastungs-Hotspots verhindert, die die Netzwerkleistung beeinträchtigen könnten.
Sicherstellung der Ausfallsicherheit in KI-Speicherstrukturen
Große KI-Fabriken verfügen über ein umfangreiches Netzwerk aus Switches, Kabeln und Transceivern, sodass die Ausfallsicherheit ein entscheidender Faktor für die Aufrechterhaltung der Leistung ist. Spectrum-X verwendet globales adaptives Routing, um den Datenverkehr bei Verbindungsausfällen schnell umzuleiten, Störungen zu minimieren und eine optimale Nutzung der Speicherstruktur sicherzustellen.
Nahtlose Integration mit dem NVIDIA AI Stack
Zusätzlich zu den Hardware-Innovationen von Spectrum-X bietet NVIDIA Softwarelösungen zur Beschleunigung von KI-Speicher-Workflows an. Dazu gehören:
- NVIDIA Air: Ein Cloud-basiertes Simulationstool zum Modellieren von Switches, SuperNICs und Speichern, das Bereitstellung und Betrieb optimiert.
- NVIDIA Cumulus Linux: Ein Netzwerkbetriebssystem mit integrierter Automatisierung und API-Unterstützung für effizientes Management im großen Maßstab.
- NVIDIA DOCA: Ein SDK für SuperNICs und DPUs, das verbesserte Programmierbarkeit und Speicherleistung bietet.
- NVIDIA NetQ: Ein Echtzeit-Netzwerkvalidierungstool mit Integration der Switch-Telemetrie für verbesserte Sichtbarkeit und Diagnose.
- NVIDIA GPUDirect-Speicher: Eine Technologie zur direkten Datenübertragung, die die Speicherpfade vom Speicher zur GPU für einen verbesserten Datendurchsatz optimiert.
Durch die Integration von Spectrum-X in Speichernetzwerke definieren NVIDIA und seine Partner die Leistung der KI-Infrastruktur neu. Die Kombination aus adaptivem Networking, Überlastungskontrolle und Softwareoptimierung sorgt dafür, dass KI-Fabriken effizient skaliert werden können und so schnellere Erkenntnisse und eine verbesserte Betriebseffizienz liefern.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed