NVIDIA ha rivelato che il supercomputer Colossus di xAI, dotato di ben 100,000 GPU NVIDIA Hopper Tensor Core, è ora pienamente operativo a Memphis, nel Tennessee.
NVIDIA ha rivelato che il supercomputer Colossus di xAI, che vanta ben 100,000 GPU NVIDIA Hopper Tensor Core, è ora pienamente operativo a Memphis, TN. Questo risultato è stato reso possibile grazie Spectrum-X™ di NVIDIA Piattaforma di rete Ethernet, progettata per offrire prestazioni robuste per data center AI multi-tenant e iperscalabili. Spectrum-X utilizza Ethernet basata su standard con rete RDMA per garantire comunicazioni efficienti e gestione ottimizzata dei dati all'interno di questi ambienti su larga scala.
In quanto supercomputer AI più grande al mondo, Colossus attualmente alimenta la formazione della famiglia di modelli linguistici Grok di xAI, che include funzionalità di chatbot per gli abbonati X Premium. xAI ha in programma di espandere ulteriormente Colossus a 200,000 GPU NVIDIA Hopper, rafforzando il suo status di risorsa di elaborazione AI di prim'ordine. xAI e NVIDIA hanno costruito questa struttura e l'infrastruttura di elaborazione avanzata in un tempo record di 122 giorni, mentre progetti simili in genere durano diversi mesi o anni. Colossus ha iniziato le operazioni di formazione entro 19 giorni dall'installazione iniziale del rack.
Colossus sta ottenendo prestazioni di rete eccezionali durante l'addestramento di modelli su larga scala, beneficiando del controllo della congestione e della gestione del flusso di Spectrum-X. Ciò ha portato il sistema a subire un degrado della latenza pari a zero o una perdita di pacchetti dovuta a collisioni di flusso e a mantenere una velocità di trasmissione dati del 95%, un miglioramento significativo rispetto all'Ethernet tradizionale, che in genere registra solo il 60% di velocità di trasmissione dati e frequenti collisioni di flusso.
Il progresso dell'implementazione Spectrum-X di NVIDIA risiede nel suo approccio alla gestione della congestione di rete in questo enorme cluster di GPU. Le reti Ethernet tradizionali hanno difficoltà con il problema "incast" quando migliaia di GPU comunicano simultaneamente, causando perdite di pacchetti e un significativo degrado delle prestazioni. Mentre InfiniBand tradizionalmente risolveva questo problema con il suo Priority Flow Control (PFC) integrato e la gestione della congestione a livello hardware, Spectrum-X ottiene risultati simili utilizzando RoCE v2 con meccanismi di controllo della congestione migliorati. Ciò consente a xAI di mantenere caratteristiche di prestazioni simili a InfiniBand, sfruttando al contempo i vantaggi in termini di costi e la flessibilità dell'infrastruttura Ethernet standard.
Le capacità di routing adattivo e Direct Data Placement di Spectrum-X creano un tessuto di rete resiliente in grado di gestire i massicci modelli di traffico est-ovest tipici dei carichi di lavoro di formazione AI distribuiti. Il risultato è un sistema che mantiene una bassa latenza costante e un throughput elevato anche quando tutte le 100,000 GPU partecipano attivamente alle operazioni collettive.
Gilad Shainer, vicepresidente senior del networking di NVIDIA, ha sottolineato che "l'IA è mission-critical" e richiede una combinazione di prestazioni, sicurezza, scalabilità ed efficienza dei costi. Ha evidenziato come la piattaforma Spectrum-X di NVIDIA consenta ad aziende come xAI di accelerare l'elaborazione, l'analisi e l'esecuzione per carichi di lavoro di IA, con conseguente sviluppo e distribuzione più rapidi di soluzioni di IA.
Un portavoce di xAI ha riconosciuto le GPU Hopper e la tecnologia Spectrum-X di NVIDIA, citando la scalabilità e le prestazioni del sistema come elementi essenziali per abilitare una "fabbrica" di intelligenza artificiale ottimizzata basata sugli standard Ethernet.
Al centro di Spectrum-X c'è lo switch Ethernet Spectrum SN5600, che supporta velocità fino a 800 Gb/s con lo switch ASIC Spectrum-4. xAI ha strategicamente abbinato questo switch alle SuperNIC BlueField-3® di NVIDIA, raggiungendo livelli di prestazioni in precedenza esclusivi di InfiniBand. Il networking Ethernet Spectrum-X introduce funzionalità come routing adattivo con Direct Data Placement, sofisticato controllo della congestione e visibilità migliorata del fabric AI e isolamento delle prestazioni, soddisfacendo i severi requisiti degli ambienti AI multi-tenant e delle distribuzioni AI di livello aziendale.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed