NVIDIA GTC 2024 è qui; tornato di persona per la prima volta dopo molti anni. Jordan è presente all'evento dal vivo portando tutte le ultime notizie e analisi sull'evento leader sull'intelligenza artificiale.
La GPU Technology Conference (GTC) di NVIDIA torna di persona dopo diversi anni come evento esclusivamente virtuale. Questo è un evento fantastico per innovatori, ricercatori, scienziati e appassionati di tecnologia per vedere le ultime tecnologie del gigante della tecnologia. La NVIDIA GTC 2024 di quest'anno, molto attesa dalla comunità tecnologica, mette in mostra le ultime scoperte nel campo dell'intelligenza artificiale, del deep learning, dei veicoli autonomi e della nuova architettura Blackwell.
Ecco i punti salienti del discorso di lunedì del CEO di NVIDIA, Jensen Huang. Ha circondato la nuova architettura Blackwell di NVIDIA, il networking, i progressi dell'informatica quantistica e gli aggiornamenti dello stack software.
NVIDIABlackwell
Sei tecnologie rivoluzionarie pronte a ridefinire il calcolo accelerato sono al centro dell'innovazione di Blackwell. Dal miglioramento dell'elaborazione dei dati alla rivoluzione della progettazione dei farmaci e oltre, NVIDIA sta definendo un nuovo standard. Gli utilizzatori di alto profilo come Amazon e Microsoft si stanno già schierando in previsione del potenziale di trasformazione di Blackwell.
Analizziamo ora le meraviglie ingegneristiche realizzate da NVIDIA. Le GPU Blackwell racchiudono ben 208 miliardi di transistor su due chip, resi possibili sfruttando un processo 4NP TSMC con limite di due reticoli. Questo approccio sfida i limiti della fabbricazione dei semiconduttori e introduce un nuovo modo di collegare i chip con un'interfaccia da 10 TB/s. Questo spostamento verso la progettazione di chiplet riflette l'ambizione di NVIDIA di spingersi oltre i confini tradizionali.
Specificazione | H100 | B100 | B200 |
Memoria massima | 80GB HBM3 | HBM192e da 3 GB | HBM192e da 3 GB |
Banda di memoria | 3.35 TB/s | 8 TB/s | 8 TB/s |
FP4 | - | 14 PFLOP | 18 PFlop |
FP6 | - | 7 PFLOP | 9 PFLOP |
FP8/INT8 | 3.958 PFLOPS/POPS | 7 PFLOPS/POPS | 9 PFLOPS/POPS |
FP16/BF16 | 1979 TFLOPS | 3.5 PFLOP | 4.5 PFLOP |
TF32 | 989 TFLOPS | 1.8 PFLOP | 2.2 PFLOP |
FP64 | 67 TFLOPS | 30 TFLOPS | 40 TFLOPS |
Carico stimato | 700W | 700W | 1000W |
Nota: tutti i numeri qui rappresentano le prestazioni per i calcoli di matrici sparse.
Non si tratta solo di imballare più transistor. L’introduzione delle capacità di calcolo del 4° PQ e del 6° PQ porta un nuovo livello di addestramento efficiente dei modelli, anche se con un leggero compromesso nelle prestazioni del modello. Questo compromesso è un aspetto sfumato della piattaforma, che riflette un complesso atto di equilibrio tra efficienza e precisione.
Il motore di trasformazione di seconda generazione di Blackwell consente un salto di qualità nelle capacità di calcolo, larghezza di banda e dimensioni del modello quando si utilizza il 4° PQ, apportando miglioramenti vitali per il futuro dello sviluppo dell’intelligenza artificiale. Inoltre, l'integrazione di PCIe Gen6 e della nuova tecnologia di memoria HBM3e offre un sostanziale aumento della larghezza di banda che, se abbinata all'NVLink di quinta generazione, raddoppia la larghezza di banda rispetto alla generazione precedente fino all'incredibile cifra di 1.8 TB/s.
Una delle introduzioni più interessanti è il motore RAS, che migliora l'affidabilità, la disponibilità e la funzionalità nelle implementazioni di intelligenza artificiale su vasta scala. Questa innovazione potrebbe migliorare in modo significativo l’utilizzo del flop del modello, affrontando una delle sfide cruciali nella scalabilità delle applicazioni IA.
Con Blackwell, NVIDIA offre nuove funzionalità di elaborazione riservate, inclusa la prima GPU con funzionalità I/O Trusted Execution Environment (TEE) nel settore, estendendo il TEE oltre le CPU alle GPU. Ciò garantisce un’elaborazione sicura e veloce dei dati privati, fondamentale per la formazione dell’IA generativa. Questa innovazione è particolarmente significativa per le industrie che si occupano di normative sulla privacy o informazioni proprietarie. Confidential Computing di NVIDIA Blackwell offre una sicurezza senza pari senza compromettere le prestazioni, offrendo un throughput quasi identico alle modalità non crittografate. Questo progresso non solo protegge modelli di intelligenza artificiale di grandi dimensioni, ma consente anche una formazione riservata sull’intelligenza artificiale e l’apprendimento federato, salvaguardando la proprietà intellettuale nell’intelligenza artificiale.
Il motore di decompressione di NVIDIA Blackwell segna un passo avanti significativo nell'analisi dei dati e nei flussi di lavoro dei database. Questo motore può decomprimere i dati a una velocità sorprendente fino a 800 GB/s, migliorando significativamente le prestazioni dell'analisi dei dati e riducendo i tempi di acquisizione degli insight. In collaborazione con la memoria HBM8e da 3 TB/s e l'interconnessione NVLink-C2C ad alta velocità, accelera le query del database, rendendo Blackwell 18 volte più veloce delle CPU e 6 volte più veloce delle precedenti GPU NVIDIA nei benchmark delle query. Questa tecnologia supporta i formati di compressione più recenti e posiziona NVIDIA Blackwell come una potenza per l'analisi e la scienza dei dati, accelerando drasticamente la pipeline di analisi end-to-end.
Nonostante le meraviglie tecniche, l'affermazione di NVIDIA di ridurre i costi operativi e l'energia dell'inferenza LLM fino a 25 volte solleva perplessità, soprattutto data la mancanza di dati dettagliati sul consumo energetico. Questa affermazione, pur degna di nota, potrebbe trarre beneficio da ulteriori chiarimenti per valutarne appieno l’impatto.
In sintesi, la piattaforma Blackwell di NVIDIA è una testimonianza dell'incessante ricerca dell'azienda di ampliare i confini di ciò che è possibile nell'intelligenza artificiale e nell'informatica. Con le sue tecnologie rivoluzionarie e obiettivi ambiziosi, Blackwell non rappresenta solo un passo ma un gigantesco balzo in avanti, promettendo di alimentare vari progressi in vari settori. Mentre approfondiamo quest'era di calcolo accelerato e intelligenza artificiale generativa, le innovazioni di NVIDIA potrebbero essere i catalizzatori della prossima rivoluzione industriale.
NVIDIA Blackwell HGX
Abbracciando l'architettura Blackwell, NVIDIA ha aggiornato la serie di server e baseboard HGX. Questa significativa evoluzione rispetto ai modelli precedenti apporta un cambiamento avvincente, riducendo notevolmente il costo totale di proprietà e aumentando in modo impressionante le prestazioni. Il confronto è sorprendente: confrontando le FP8 con le FP4 si nota un notevole miglioramento delle prestazioni di 4.5 volte. Anche abbinando l'FP8 al suo predecessore, le prestazioni quasi raddoppiano. Non si tratta solo di velocità pura; si tratta di un balzo in avanti nell'efficienza della memoria, che mostra un aumento di 8 volte della larghezza di banda della memoria aggregata.
Specificazione | HGXH100 | HGXH200 | HGX B100 | HGX B200 |
Memoria massima | 640GB HBM3 | HBM1.1e da 3 TB | HBM1.5e da 3 TB | HBM1.5e da 3 TB |
Banda di memoria | 7.2 TB/s | 7.2 TB/s | 8 TB/s | 8 TB / s |
FP4 | - | - | 112 PFLOP | 144 PFLOP |
FP6 | - | - | 56 PFLOP | 72 PFLOP |
FP8/INT8 | 32 PFLOPS/POPS | 32 PFLOPS/POPS | 56 PFLOPS/POPS | 72 PFLOPS/POPS |
FP16/BF16 | 16 PFLOP | 16 PFLOP | 28 PFLOP | 36 PFLOP |
SuperChip NVIDIA Grace-Blackwell
Immergendoci più a fondo nelle complessità dell'ultimo annuncio di NVIDIA, concentrandoci sul GB200, la pietra angolare dell'arsenale della piattaforma Blackwell. Con NVIDIA che spinge continuamente i limiti nell'elaborazione ad alte prestazioni, il GB200 rappresenta un'evoluzione significativa nelle sue offerte di GPU, fondendo tecnologia all'avanguardia con progressi strategici nella connettività e nella scalabilità. Il GB200 ospita due GPU B200; questa configurazione si discosta dal GH200 della generazione precedente, che prevedeva una connessione uno a uno tra una GPU e una CPU Grace. Questa volta, entrambe le GPU B200 sono collegate alla stessa CPU Grace tramite un collegamento chip-to-chip (C900C) da 2 GB/s.
Specificazione | GH200 | GB200 |
Memoria massima | HBM144e da 3 GB | HBM384e da 3 GB |
Banda di memoria | 8 TB/s | 16 TB/s (aggregato) |
FP4 | - | 40 PFLOP |
FP6 | - | 20 PFLOP |
FP8/INT8 | 3.958 PFLOPS/POPS | 20 PFLOP |
FP16/BF16 | 1979 TFLOPS | 10 PFLOP |
TF32 | 989 TFLOPS | 5 PFLOP |
FP64 | 67 TFLOPS | 90 TFLOPS |
PCIe Lanes | 4x PCIe Gen 5 x16 | 2x PCIe Gen 6 x16 |
Carico stimato | 1000W | 2700W |
# Nota: tutti i numeri qui rappresentano le prestazioni per i calcoli con matrici sparse.
A prima vista, la decisione di mantenere il collegamento C900C da 2GB/s della generazione precedente potrebbe sembrare un limite. Tuttavia, questa scelta progettuale sottolinea una strategia calcolata per sfruttare le tecnologie esistenti aprendo al contempo la strada a nuovi livelli di scalabilità. L'architettura del GB200 gli consente di comunicare con un massimo di 576 GPU a una velocità di 1.8 TB/s, grazie all'NVLink di quinta generazione. Questo livello di interconnettività è fondamentale per costruire ambienti informatici massivamente paralleli necessari per l’addestramento e l’implementazione dei modelli di intelligenza artificiale più grandi e complessi.
Aggiornamento dello stack di rete NVIDIA
Integrazione del GB200 con le più recenti tecnologie di rete NVIDIA, le piattaforme Ethernet Quantum-X800 InfiniBand e Spectrum-X800 solleva domande interessanti sulla connettività e sulla larghezza di banda. La menzione delle capacità di 800 Gb/s suggerisce che NVIDIA stia esplorando i vantaggi che PCIe Gen6 può portare sul tavolo.
La configurazione GB200, con la sua doppia GPU e opzioni di rete avanzate, rappresenta la visione di NVIDIA per il futuro dell'HPC. Questa visione non riguarda solo la potenza pura dei singoli componenti, ma anche il modo in cui questi componenti possono essere orchestrati in un sistema coerente e scalabile. Consentendo un livello più elevato di interconnettività e mantenendo un equilibrio tra potenza di calcolo e velocità di trasferimento dati, NVIDIA affronta alcune delle sfide più critiche nella ricerca e sviluppo sull'intelligenza artificiale, in particolare nella gestione di dimensioni dei modelli e richieste computazionali in crescita esponenziale.
Switch NVLink e NVLink di quinta generazione NVIDIA
L'NVLink di quinta generazione segna una pietra miliare significativa nel calcolo ad alte prestazioni e nell'intelligenza artificiale. Questa tecnologia migliora la capacità di connessione e comunicazione tra GPU, un aspetto cruciale per le esigenze in rapida evoluzione dei modelli fondamentali dell'intelligenza artificiale.
L'NVLink di quinta generazione aumenta la capacità di connettività GPU a 576 GPU, un aumento sostanziale rispetto al limite precedente di 256 GPU. Questa espansione è abbinata a un raddoppio della larghezza di banda rispetto al suo predecessore, un miglioramento fondamentale per le prestazioni di modelli di intelligenza artificiale fondamentali sempre più complessi.
Ciascun collegamento GPU Blackwell vanta due coppie differenziali ad alta velocità, simili alla GPU Hopper, ma raggiunge una larghezza di banda effettiva per collegamento di 50 GB/sec in ciascuna direzione. Queste GPU sono dotate di 18 collegamenti NVLink di quinta generazione, che forniscono un'incredibile larghezza di banda totale di 1.8 TB/s. Questo throughput è più di 14 volte maggiore di quello dell'attuale PCIe Gen 5.
Un'altra caratteristica notevole è lo switch NVIDIA NVLink, che supporta una larghezza di banda GPU di 130 TB/s in un singolo dominio NVLink da 72 GPU (NVL72), cruciale per il parallelismo dei modelli. Questo switch garantisce inoltre un aumento di quattro volte dell'efficienza della larghezza di banda grazie al nuovo supporto FP8 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP).
Inoltre, NVIDIA Unified Fabric Manager (UFM) integra lo switch NVLink fornendo una gestione solida e comprovata per la struttura di elaborazione NVLink.
Elaborazione Exascale in un rack
Basandosi sulle formidabili basi gettate dal suo predecessore, GraceHopper GH200 NVL32, il DGX GB200 NVL72 non è solo un aggiornamento; si tratta di un progresso fondamentale per espandere ciò che è possibile in termini di potenza ed efficienza computazionale. La piattaforma DGX GB200 NVL72 mostra progressi sbalorditivi su tutta la linea. Ogni sistema DGX GB200 NVL72 comprende 18 nodi SuperChip GB200, comprendenti 2x GB200 ciascuno.
Questa piattaforma più che raddoppia il numero di GPU da 32 a 72 e aumenta modestamente le CPU da 32 a 36. Tuttavia, il salto di memoria è notevole, passando da 19.5 TB a ben 30 TB. Questa espansione non riguarda solo numeri più significativi; si tratta di abilitare un nuovo livello di capacità computazionali, in particolare nella gestione dei modelli e delle simulazioni di intelligenza artificiale più complessi.
Uno degli aggiornamenti più sbalorditivi è il salto nelle prestazioni computazionali. La piattaforma passa da 127 PetaFLOPS a 1.4 ExaFLOPS quando si confrontano le prestazioni FP4, segnando un aumento di circa 11 volte. Questo confronto mette in luce l'impegno di NVIDIA nel superare i limiti della precisione e della velocità, in particolare nell'intelligenza artificiale e nell'apprendimento automatico. Tuttavia, anche confrontando l’8° PQ con l’8° PQ, la piattaforma ottiene un aumento di 5.6 volte, da 127PF a 720PF, sottolineando significativi progressi in termini di efficienza e potenza di calcolo.
L'impegno nel mantenere un sistema completamente raffreddato ad acqua riecheggia l'attenzione di NVIDIA alla sostenibilità e all'ottimizzazione delle prestazioni. Questo approccio migliora l'efficienza operativa del sistema e si allinea con le tendenze più ampie del settore verso tecnologie per data center più rispettose dell'ambiente.
NVIDIA DGX SuperPOD basato sui superchip NVIDIA GB200 Grace Blackwell
NVIDIA ha inoltre annunciato il suo supercomputer AI di prossima generazione, il DGX SuperPOD, dotato di 8 sistemi NVIDIA GB200 NVL72 Grace Blackwell. Questa formidabile configurazione è progettata per gestire modelli da trilioni di parametri, vantando 11.5 exaflop di potenza di supercalcolo AI con precisione FP4 attraverso la sua architettura su scala rack raffreddata a liquido. Ogni sistema GB200 NVL72 include 36 superchip NVIDIA GB200, promettendo un aumento delle prestazioni 30 volte superiore rispetto ai suoi predecessori H100 per carichi di lavoro di inferenza di modelli linguistici di grandi dimensioni.
Secondo Jensen Huang, CEO di NVIDIA, il DGX SuperPOD mira a essere la "fabbrica della rivoluzione industriale dell'intelligenza artificiale".
Nuvola di simulazione quantistica
NVIDIA ha inoltre presentato il servizio Quantum Simulation Cloud, che consente ai ricercatori di esplorare l'informatica quantistica in vari settori scientifici. Basato sulla piattaforma open source CUDA-Q, questo servizio offre potenti strumenti e integrazioni per creare e testare algoritmi e applicazioni quantistiche. Le collaborazioni con l'Università di Toronto e aziende come Classiq e QC Ware evidenziano l'impegno di NVIDIA nell'accelerare l'innovazione del calcolo quantistico.
Stack software NVIDIA NIM
Un altro annuncio significativo è stato il lancio dello stack software NVIDIA NIM, che offre dozzine di microservizi IA generativi di livello aziendale. Questi servizi consentono alle aziende di creare e distribuire applicazioni personalizzate sulle proprie piattaforme, ottimizzando l'inferenza sui modelli di intelligenza artificiale più diffusi e migliorando lo sviluppo con i microservizi NVIDIA CUDA-X per un'ampia gamma di applicazioni. Jensen Huang ha sottolineato il potenziale di questi microservizi nel trasformare le imprese di tutti i settori in entità basate sull’intelligenza artificiale.
Sistemi informatici OVX
In risposta alla rapida crescita dell'intelligenza artificiale generativa in vari settori, NVIDIA ha introdotto i sistemi informatici OVX, una soluzione progettata per semplificare i carichi di lavoro complessi di intelligenza artificiale e grafica. Riconoscendo il ruolo cruciale dello storage ad alte prestazioni nelle implementazioni dell'intelligenza artificiale, NVIDIA ha avviato un programma di convalida dei partner di storage con contributori importanti come DDN, Dell PowerScale, NetApp, Pure Storage e WEKA.
Il nuovo programma standardizza il processo di convalida dei propri dispositivi di storage da parte dei partner, garantendo prestazioni e scalabilità ottimali per i carichi di lavoro IA aziendali. Attraverso rigorosi test NVIDIA, questi sistemi di storage vengono convalidati rispetto a diversi parametri, riflettendo gli impegnativi requisiti delle applicazioni AI.
Inoltre, i server OVX certificati NVIDIA, alimentati da GPU NVIDIA L40S e integrati con soluzioni software e di rete complete, offrono un'architettura flessibile per adattarsi a diversi ambienti di data center. Questo approccio non solo accelera l’elaborazione dei dati nel luogo in cui risiedono, ma soddisfa anche le esigenze specifiche dell’intelligenza artificiale generativa, garantendo efficienza ed efficienza in termini di costi. I server NVIDIA OVX sono dotati di robuste GPU, che offrono funzionalità di elaborazione avanzate, accesso allo storage ad alta velocità e rete a bassa latenza. Ciò è particolarmente vitale per applicazioni impegnative come chatbot e strumenti di ricerca che richiedono un’ampia elaborazione dei dati.
Attualmente disponibili e spediti da fornitori globali come GIGABYTE, Hewlett Packard Enterprise, Lenovo e Supermicro, i server OVX certificati NVIDIA rappresentano un passo avanti significativo nella gestione di carichi di lavoro IA complessi, promettendo prestazioni, sicurezza e scalabilità di livello aziendale.
Pensieri di chiusura
Inoltre, ci sono stati annunci nel campo dell’automotive, della robotica, della sanità e dell’intelligenza artificiale generativa. Tutti questi annunci dimostrano l'incessante ricerca di innovazione di NVIDIA, offrendo strumenti e piattaforme avanzati per guidare il futuro dell'intelligenza artificiale e dell'informatica in più domini. Sono tutti altamente tecnici e presentano molte complessità, soprattutto nel caso dell’informatica quantistica e delle versioni software. Resta sintonizzato per l'analisi degli annunci man mano che otteniamo maggiori informazioni su ciascuna di queste nuove versioni.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed