NVIDIA Spectrum-X include il routing adattivo per arginare il flusso di collisioni e ottimizzare l'utilizzo della larghezza di banda.
Le fabbriche di intelligenza artificiale richiedono più di semplici strutture di elaborazione ad alte prestazioni per funzionare in modo efficiente. Mentre la rete est-ovest svolge un ruolo fondamentale nel collegamento delle GPU, le strutture di archiviazione, responsabili del collegamento di array di archiviazione ad alta velocità, sono ugualmente essenziali. Le prestazioni di archiviazione hanno un impatto significativo su più fasi del ciclo di vita dell'intelligenza artificiale, tra cui il checkpointing di formazione e le tecniche di inferenza come la generazione aumentata dal recupero (RAG). Per soddisfare queste esigenze, NVIDIA e il suo ecosistema di archiviazione hanno esteso la piattaforma di rete NVIDIA Spectrum-X per migliorare le prestazioni della struttura di archiviazione, accelerando il tempo per le informazioni IA.
Comprensione delle collisioni di rete nei cluster AI
Le collisioni di rete si verificano quando più pacchetti di dati tentano di attraversare lo stesso percorso di rete simultaneamente, con conseguenti interferenze, ritardi e, occasionalmente, la necessità di ritrasmissione. Nei cluster AI su larga scala, tali collisioni sono più probabili quando le GPU sono completamente caricate o c'è un traffico intenso da operazioni ad alta intensità di dati.
Poiché le GPU elaborano calcoli complessi simultaneamente, le risorse di rete possono saturarsi, causando colli di bottiglia nelle comunicazioni. Spectrum-X è progettato per contrastare questi problemi reindirizzando automaticamente e dinamicamente il traffico e gestendo la congestione, assicurando che i flussi di dati critici siano ininterrotti senza la necessità di implementazioni come l'ECMP avanzato di Meta descritto in LAMA 3 carta.
Ottimizzazione delle prestazioni di archiviazione con Spectrum-X
NVIDIA Spectrum-X introduce funzionalità di routing adattivo che attenuano le collisioni di flusso e ottimizzano l'utilizzo della larghezza di banda. Rispetto a RoCE v2, il protocollo di rete Ethernet ampiamente utilizzato nei fabric di elaborazione e archiviazione AI, Spectrum-X raggiunge prestazioni di archiviazione superiori. I test dimostrano un miglioramento fino al 48% della larghezza di banda in lettura e un aumento del 41% della larghezza di banda in scrittura. Questi progressi si traducono in un'esecuzione più rapida dei carichi di lavoro AI, riducendo i tempi di completamento dei job di training e riducendo al minimo la latenza inter-token per le attività di inferenza.
Man mano che i carichi di lavoro AI aumentano in complessità, le soluzioni di storage devono evolversi di conseguenza. I principali provider di storage, tra cui DDN, VAST Data e WEKA, hanno stretto una partnership con NVIDIA per integrare Spectrum-X nelle loro soluzioni di storage. Questa collaborazione consente ai fabric di storage AI di sfruttare funzionalità di networking all'avanguardia, migliorando prestazioni e scalabilità.
Il supercomputer Israel-1: convalida dell'impatto di Spectrum-X
NVIDIA ha costruito il supercomputer generativo AI Israel-1 come banco di prova per ottimizzare le prestazioni di Spectrum-X in scenari del mondo reale. Il team Israel-1 ha condotto un'ampia analisi comparativa per valutare l'impatto di Spectrum-X sulle prestazioni della rete di storage. Utilizzando il benchmark Flexible I/O Tester (FIO), hanno confrontato una configurazione di rete RoCE v2 standard con routing adattivo e controllo della congestione abilitati di Spectrum-X.
I test hanno interessato configurazioni che vanno da 40 a 800 GPU, dimostrando costantemente prestazioni superiori con Spectrum-X. I miglioramenti della larghezza di banda in lettura sono andati dal 20% al 48%, mentre la larghezza di banda in scrittura ha visto guadagni tra il 9% e il 41%. Questi risultati sono strettamente allineati con i miglioramenti delle prestazioni osservati nelle soluzioni dell'ecosistema partner, convalidando ulteriormente l'efficacia della tecnologia nei fabric di archiviazione AI.
Il ruolo delle reti di storage nelle prestazioni dell'intelligenza artificiale
L'efficienza della rete di storage è fondamentale per le operazioni AI. L'addestramento del modello spesso dura giorni, settimane o persino mesi, rendendo necessaria una verifica periodica checkpoint per prevenire la perdita di dati da un guasto del sistema. Con modelli AI su larga scala che raggiungono stati di checkpoint su scala terabyte, una gestione efficiente della rete di storage assicura una continuità di training senza soluzione di continuità.
I carichi di lavoro di inferenza basati su RAG sottolineano ulteriormente l'importanza di strutture di archiviazione ad alte prestazioni. Combinando un LLM con una knowledge base dinamica, RAG migliora l'accuratezza della risposta senza richiedere il riaddestramento del modello. Solitamente archiviate in grandi database vettoriali, queste knowledge base necessitano di un accesso di archiviazione a bassa latenza per mantenere prestazioni di inferenza ottimali, in particolare in ambienti di intelligenza artificiale generativa multi-tenant che gestiscono volumi di query elevati.
Applicazione del routing adattivo e del controllo della congestione allo storage
Spectrum-X introduce innovazioni chiave nella rete Ethernet adattate da InfiniBand per migliorare le prestazioni della struttura di archiviazione:
- Routing adattivo: Spectrum-X bilancia dinamicamente il traffico di rete per prevenire collisioni di flussi di elefanti durante il checkpointing e le operazioni ad alta intensità di dati. Gli switch Ethernet Spectrum-4 analizzano i dati di congestione in tempo reale, selezionando il percorso meno congestionato per ogni pacchetto. A differenza di Ethernet legacy, in cui i pacchetti fuori ordine richiedono la ritrasmissione, Spectrum-X utilizza SuperNIC e DPU per riordinare i pacchetti a destinazione, garantendo un funzionamento senza interruzioni e un utilizzo più efficace della larghezza di banda.
- Controllo della congestione: Checkpoint e altre operazioni di storage AI spesso causano congestione many-to-one, in cui più client tentano di scrivere su un singolo nodo di storage. Spectrum-X mitiga questo problema regolando i tassi di iniezione dei dati tramite telemetria basata su hardware, prevenendo hotspot di congestione che potrebbero degradare le prestazioni della rete.
Garantire la resilienza nei tessuti di archiviazione AI
Le fabbriche AI su larga scala incorporano un'ampia rete di switch, cavi e transceiver, rendendo la resilienza un fattore critico per il mantenimento delle prestazioni. Spectrum-X impiega il routing adattivo globale per reindirizzare rapidamente il traffico durante i guasti dei collegamenti, riducendo al minimo le interruzioni e preservando l'utilizzo ottimale dello storage fabric.
Integrazione perfetta con lo stack AI NVIDIA
Oltre alle innovazioni hardware di Spectrum-X, NVIDIA offre soluzioni software per accelerare i flussi di lavoro di archiviazione AI. Tra queste:
- NVIDIA Aria: Uno strumento di simulazione basato su cloud per la modellazione di switch, SuperNIC e storage, semplificando l'implementazione e le operazioni.
- NVIDIA Cumulus Linux: Un sistema operativo di rete con automazione integrata e supporto API per una gestione efficiente su larga scala.
- NVIDIADOCA: Un SDK per SuperNIC e DPU, che offre programmabilità avanzata e prestazioni di archiviazione.
- NVIDIA NetQ: Uno strumento di convalida della rete in tempo reale che si integra con la telemetria dello switch per una maggiore visibilità e diagnostica.
- Archiviazione NVIDIA GPUDirect: Una tecnologia di trasferimento dati diretto che ottimizza i percorsi dalla memoria di archiviazione a quella GPU per migliorare la produttività dei dati.
Integrando Spectrum-X nelle reti di storage, NVIDIA e i suoi partner stanno ridefinendo le prestazioni dell'infrastruttura AI. La combinazione di networking adattivo, controllo della congestione e ottimizzazione del software garantisce che le fabbriche AI possano scalare in modo efficiente, offrendo insight più rapidi e una migliore efficienza operativa.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed