Nel panorama velocissimo e in continua evoluzione dell'intelligenza artificiale (AI), NVIDIA DGX GH200 emerge come un faro di innovazione. Questo potente sistema, progettato pensando ai carichi di lavoro IA più impegnativi, è una soluzione completa destinata a rivoluzionare il modo in cui le aziende si avvicinano all'IA generativa. NVIDIA ha nuovi dettagli che mostrano come si combina il GH200 e offre un picco di come appaiono le prestazioni dell'intelligenza artificiale con questa tecnologia GPU di ultima generazione.
Nel panorama velocissimo e in continua evoluzione dell'intelligenza artificiale (AI), NVIDIA DGX GH200 emerge come un faro di innovazione. Questo potente sistema, progettato pensando ai carichi di lavoro IA più impegnativi, è una soluzione completa destinata a rivoluzionare il modo in cui le aziende si avvicinano all'IA generativa. NVIDIA ha nuovi dettagli che mostrano come si combina il GH200 e offre un picco di come appaiono le prestazioni dell'intelligenza artificiale con questa tecnologia GPU di ultima generazione.
NVIDIA DGX GH200: una soluzione completa
Il DGX GH200 non è solo un elegante componente hardware per rack; è una soluzione completa che combina il calcolo ad alte prestazioni (HPC) con l’intelligenza artificiale. È progettato per gestire i carichi di lavoro IA più complessi, offrendo un livello di prestazioni davvero impareggiabile.
Il DGX GH200 riunisce uno stack hardware completo, tra cui NVIDIA GH200 Grace Hopper Superchip, NVIDIA NVLink-C2C, NVIDIA NVLink Switch System e NVIDIA Quantum-2 InfiniBand, in un unico sistema. NVIDIA supporta tutto questo con uno stack software ottimizzato appositamente progettato per accelerare lo sviluppo dei modelli.
Specificazione | Dettagli |
---|---|
GPU | Tramoggia 96 GB HBM3, 4 TB/s |
CPU | 72 Braccio centrale Neoverse V2 |
Memoria della CPU | Fino a 480 GB LPDDR5 fino a 500 GB/s, 4 volte più efficiente dal punto di vista energetico rispetto a DDR5 |
Da CPU a GPU | Collegamento coerente bidirezionale NVLink-C2C da 900 GB/s, 5 volte più efficiente dal punto di vista energetico rispetto a PCIe Gen5 |
Da GPU a GPU | NVLink 900 GB/s bidirezionale |
I/O ad alta velocità | 4x PCIe Gen5 x16 fino a 512 GB/s |
TDP | Configurabile da 450W a 1000W |
Memoria GPU estesa
Il superchip NVIDIA Grace Hopper, dotato della funzionalità EGM (Extended GPU Memory), è progettato per gestire applicazioni con un ingombro di memoria enorme, maggiore della capacità dei propri sottosistemi di memoria HBM3 e LPDDR5X. Questa funzionalità consente alle GPU di accedere fino a 144 TB di memoria da tutte le CPU e GPU del sistema, con caricamenti di dati, archivi e operazioni atomiche possibili a velocità LPDDR5X. L'EGM può essere utilizzato con le librerie MAGNUM IO standard ed è accessibile dalla CPU e da altre GPU tramite connessioni NVIDIA NVLink e NVLink-C2C.
NVIDIA afferma che la funzionalità Extended GPU Memory (EGM) sul superchip NVIDIA Grace Hopper migliora significativamente l'addestramento dei Large Language Models (LLM) fornendo una vasta capacità di memoria. Questo perché gli LLM in genere richiedono enormi quantità di memoria per archiviare parametri, calcoli e gestire set di dati di addestramento.
Avendo la possibilità di accedere fino a 144TB di memoria da tutte le CPU e GPU del sistema, i modelli possono essere addestrati in modo più efficiente ed efficace. Una capacità di memoria di grandi dimensioni dovrebbe portare a prestazioni più elevate, modelli più complessi e alla capacità di lavorare con set di dati più grandi e dettagliati, migliorando così potenzialmente la precisione e l'utilità di questi modelli.
Sistema di commutazione NVLink
Poiché le esigenze dei Large Language Models (LLM) continuano a estendere i confini della gestione della rete, il sistema NVLink Switch di NVIDIA rimane una soluzione solida. Sfruttando la potenza della tecnologia NVLink di quarta generazione e dell'architettura NVSwitch di terza generazione, questo sistema offre connettività a larghezza di banda elevata e bassa latenza a ben 256 superchip NVIDIA Grace Hopper all'interno del sistema DGX GH200. Il risultato è l'incredibile larghezza di banda full-duplex di 25.6 Tbps, che segna un salto sostanziale nella velocità di trasferimento dei dati.
Nel sistema DGX GH200, ogni GPU è essenzialmente un vicino ficcanaso, essendo in grado di ficcare il naso nella memoria HBM3 e LPDDR5X dei suoi pari sulla rete NVLink. Abbinato alle librerie di accelerazione NVIDIA Magnum IO, questo "quartiere ficcanaso" ottimizza le comunicazioni GPU, si espande in modo efficiente e raddoppia la larghezza di banda della rete effettiva. Pertanto, mentre la tua formazione LLM viene potenziata e le spese generali di comunicazione stanno aumentando, le operazioni di intelligenza artificiale stanno ricevendo una spinta turbo.
Il sistema di switch NVIDIA NVLink nel DGX GH200 è in grado di migliorare significativamente l'addestramento di modelli come LLM facilitando la connettività a larghezza di banda elevata e bassa latenza tra un gran numero di GPU. Ciò porta a una condivisione dei dati più rapida ed efficiente tra le GPU, migliorando così la velocità e l’efficienza dell’addestramento del modello. Inoltre, la capacità di ogni GPU di accedere alla memoria peer di altri Superchip sulla rete NVLink aumenta la memoria disponibile, che è fondamentale per LLM con parametri di grandi dimensioni.
Mentre le prestazioni impressionanti dei superchip Grace Hopper sono indiscutibilmente un punto di svolta nel regno dei calcoli IA, la vera magia di questo sistema avviene in NVLink, dove la connettività a larghezza di banda elevata e bassa latenza tra numerose GPU richiede condivisione ed efficienza dei dati. a un livello completamente nuovo.
Architettura del sistema DGX GH200
L'architettura del supercomputer DGX GH200 è complessa, ma progettata meticolosamente. Composto da 256 vassoi di elaborazione Grace Hopper GH200 e un sistema di switch NVLink che forma un albero grasso NVLink a due livelli. Ciascun vassoio di elaborazione ospita un superchip GH200 Grace Hopper, componenti di rete, un sistema di gestione/BMC e SSD per l'archiviazione dei dati e l'esecuzione del sistema operativo.
Categoria | Dettagli |
---|---|
CPU / GPU | 1x superchip NVIDIA Grace Hopper con NVLink-C2C |
GPU/GPU | 18 porte NVLink di quarta generazione |
Networking | 1x NVIDIA ConnectX-7 con OSFP: > Rete informatica NDR400 InfiniBand 1x porta doppia NVIDIA BlueField-3 con 2x QSFP112 o 1x porta doppia NVIDIA ConnectX-7 con 2x QSFP112: > Rete Ethernet in banda 200 GbE > Rete di archiviazione NDR200 IB Rete fuori banda: > 1 GbE RJ45 |
Archiviazione | Unità dati: 2x 4 TB (SSD U.2 NVMe) SW RAID 0 Unità sistema operativo: 2x 2 TB (SSD M.2 NVMe) SW RAID 1 |
In questa configurazione, otto vassoi di elaborazione sono collegati a tre vassoi NVLink NVSwitch di primo livello per creare un singolo chassis da 8 GPU. Ogni vassoio switch NVLink possiede due ASIC NVSwitch che si collegano ai vassoi di elaborazione tramite una cartuccia di cavo blind mate personalizzata e agli switch NVLink di secondo livello tramite cavi LinkX.
Il sistema risultante comprende 36 switch NVLink di secondo livello che collegano 32 chassis per formare il supercomputer completo NVIDIA DGX GH200. Per ulteriori informazioni, fare riferimento alla Tabella 2 per le specifiche del vassoio di elaborazione con Grace Hopper Superchip e alla Tabella 3 per le specifiche dello switch NVLink.
Architettura di rete del DGX GH200
Il sistema NVIDIA DGX GH200 incorpora quattro sofisticate architetture di rete per fornire soluzioni computazionali e di storage all'avanguardia. In primo luogo, un Compute InfiniBand Fabric, costruito con switch NVIDIA ConnectX-7 e Quantum-2, forma un tessuto InfiniBand NDR400 full-fat tree ottimizzato per il binario, consentendo una connettività senza soluzione di continuità tra più unità DGX GH200.
In secondo luogo, lo Storage Fabric, gestito dall'unità di elaborazione dati (DPU) NVIDIA BlueField-3, offre storage ad alte prestazioni tramite una porta QSFP112. Ciò stabilisce una rete di archiviazione dedicata e personalizzabile che previene abilmente la congestione del traffico.
Il Management Fabric in banda funge da terza architettura, collegando tutti i servizi di gestione del sistema e facilitando l'accesso ai pool di storage, ai servizi interni al sistema come Slurm e Kubernetes e ai servizi esterni come NVIDIA GPU Cloud.
Infine, il Out-of-band Management Fabric, operante a 1GbE, supervisiona la gestione fuori banda essenziale per i superchip Grace Hopper, la DPU BlueField-3 e gli switch NVLink attraverso il Baseboard Management Controller (BMC), ottimizzando le operazioni e prevenendo conflitti con altri servizi.
Scatenare la potenza dell'intelligenza artificiale: stack software NVIDIA DGX GH200
Il DGX GH200 ha tutta la potenza pura che gli sviluppatori potrebbero desiderare; è molto più di un semplice supercomputer. Si tratta di sfruttare quel potere per far avanzare l’intelligenza artificiale. Indubbiamente, lo stack software fornito in bundle con il DGX GH200 è una delle sue caratteristiche distintive.
Questa soluzione completa comprende diversi SDK, librerie e strumenti ottimizzati progettati per sfruttare appieno le capacità dell'hardware, garantendo un'efficiente scalabilità delle applicazioni e prestazioni migliorate. Tuttavia, l’ampiezza e la profondità dello stack software del DGX GH200 meritano più di una menzione fugace, assicuratevi di dare un’occhiata Il whitepaper di NVIDIA sull'argomento per un'analisi approfondita dello stack software.
Requisiti di archiviazione del DGX GH200
Per sfruttare appieno le capacità del sistema DGX GH200, è fondamentale abbinarlo a un sistema di storage bilanciato e ad alte prestazioni. Ogni sistema GH200 ha la capacità di leggere o scrivere dati a velocità fino a 25 GB/s attraverso l'interfaccia NDR200. Per una configurazione 256 Grace Hopper DGX GH200, NVIDIA suggerisce una prestazione di archiviazione aggregata di 450 GB/s per massimizzare il throughput di lettura.
La necessità di alimentare i progetti di intelligenza artificiale e le GPU sottostanti con uno storage adeguato è il discorso più popolare dell'estate nei circuiti fieristici. Praticamente ogni spettacolo a cui siamo stati aveva un segmento del keynote dedicato ai flussi di lavoro e all'archiviazione dell'intelligenza artificiale. Resta da vedere, tuttavia, quanto di questo discorso riguardi semplicemente il riposizionamento dei prodotti di storage esistenti e quanto porti a miglioramenti significativi per lo storage AI. Al momento è troppo presto per dirlo, ma stiamo ascoltando molte voci da parte dei fornitori di storage che potrebbero potenzialmente portare a cambiamenti significativi per i carichi di lavoro di intelligenza artificiale.
Un ostacolo è saltato, altri ne seguiranno
Sebbene il DGX GH200 semplifichi l’aspetto della progettazione hardware dello sviluppo dell’intelligenza artificiale, è importante riconoscere che nel campo dell’intelligenza artificiale generativa ci sono altre sfide considerevoli; la generazione dei dati di addestramento.
Lo sviluppo di un modello di intelligenza artificiale generativa richiede un immenso volume di dati di alta qualità. Ma i dati, nella loro forma grezza, non sono immediatamente utilizzabili. Richiede sforzi estesi di raccolta, pulizia ed etichettatura per renderlo adatto all’addestramento dei modelli di intelligenza artificiale.
La raccolta dei dati è il passo iniziale e comporta il reperimento e l’accumulo di grandi quantità di informazioni rilevanti, che spesso possono richiedere molto tempo e denaro. Poi arriva il processo di pulizia dei dati, che richiede una meticolosa attenzione ai dettagli per identificare e correggere gli errori, gestire le voci mancanti ed eliminare eventuali dati irrilevanti o ridondanti. Infine, il compito di etichettatura dei dati, una fase essenziale nell’apprendimento supervisionato, prevede la classificazione di ciascun punto dati in modo che l’intelligenza artificiale possa comprenderlo e imparare da esso.
La qualità dei dati di addestramento è fondamentale. Dati sporchi, di scarsa qualità o distorti possono portare a previsioni imprecise e a processi decisionali errati da parte dell’intelligenza artificiale. C’è ancora bisogno di competenze umane ed è necessario un enorme sforzo per garantire che i dati utilizzati nella formazione siano abbondanti e della massima qualità.
Questi processi non sono banali e richiedono risorse significative, sia umane che di capitale, inclusa la conoscenza specializzata dei dati di addestramento, sottolineando la complessità dello sviluppo dell’intelligenza artificiale oltre l’hardware. Alcuni di questi vengono affrontati con progetti come Guardrail NeMo che è progettato per mantenere l'intelligenza artificiale generativa accurata e sicura.
Pensieri di chiusura
NVIDIA DGX GH200 è una soluzione completa posizionata per ridefinire il panorama dell'intelligenza artificiale. Con le sue prestazioni senza precedenti e le sue capacità avanzate, è un punto di svolta destinato a guidare il futuro dell'intelligenza artificiale. Che tu sia un ricercatore di intelligenza artificiale che cerca di ampliare i confini di ciò che è possibile o un'azienda che desidera sfruttare la potenza dell'intelligenza artificiale, DGX GH200 è uno strumento che può aiutarti a raggiungere i tuoi obiettivi. Sarà interessante osservare come verrà affrontata la generazione dei dati di addestramento man mano che la potenza di calcolo grezza diventa sempre più diffusa. Questo aspetto viene spesso trascurato nelle discussioni sulle versioni hardware.
Tutto sommato, è importante riconoscere l’elevato costo del sistema DGX GH200. Il DGX GH200 non è economico e il suo prezzo premium lo colloca esattamente nel regno delle più grandi imprese e delle società di intelligenza artificiale più ben finanziate (NVIDIA, contattami, ne voglio una), ma per quelle entità che possono permetterselo it, il DGX GH200 rappresenta un investimento rivoluzionario, che ha il potenziale per ridefinire le frontiere dello sviluppo e dell’applicazione dell’IA.
Man mano che sempre più grandi imprese adottano questa tecnologia e iniziano a creare e implementare soluzioni di intelligenza artificiale avanzate, ciò potrebbe portare a una più ampia democratizzazione della tecnologia di intelligenza artificiale. Si spera che le innovazioni si traducano in soluzioni più convenienti, rendendo l’intelligenza artificiale più accessibile alle aziende più piccole. L’accesso basato sul cloud alla potenza computazionale simile a DGX GH200 sta diventando sempre più ampiamente disponibile, consentendo alle piccole imprese di sfruttare le sue capacità in base al pagamento in base all’uso. Sebbene il costo iniziale possa essere elevato, l’influenza a lungo termine del DGX GH200 potrebbe diffondersi in tutto il settore, contribuendo a livellare il campo di gioco per le aziende di tutte le dimensioni.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed