Meta Platforms ha selezionato il sistema NVIDIA DGX A100 per AI Research SuperCluster (RSC). Una volta completamente implementato, si prevede che RSC di Meta sarà il più grande sistema NVIDIA DGX A100. L’AI Research SuperCluster (RSC) sta già addestrando nuovi modelli per far progredire l’intelligenza artificiale.
Meta Platforms ha selezionato il sistema NVIDIA DGX A100 per AI Research SuperCluster (RSC). Una volta completamente implementato, si prevede che RSC di Meta sarà il più grande sistema NVIDIA DGX A100. L’AI Research SuperCluster (RSC) sta già addestrando nuovi modelli per far progredire l’intelligenza artificiale.
SuperCluster di metaricerca
L'AI Research SuperCluster di Meta presenta centinaia di sistemi NVIDIA DGX collegati su una rete NVIDIA Quantum InfiniBand per accelerare il lavoro dei suoi team di ricerca sull'intelligenza artificiale.
Si prevede che RSC sarà completamente realizzato entro la fine dell’anno e Meta lo utilizzerà per addestrare modelli di intelligenza artificiale con più di un trilione di parametri. RSC farà progressi in campi come l’elaborazione del linguaggio naturale per compiti come l’identificazione di contenuti dannosi in tempo reale. Oltre alle prestazioni su larga scala, Meta ha citato l’estrema affidabilità, sicurezza, privacy e flessibilità nel gestire “un’ampia gamma di modelli di intelligenza artificiale” come criteri chiave per RSC.
I supercomputer IA sono costruiti combinando più GPU in nodi di calcolo, che vengono poi collegati da una struttura di rete ad alte prestazioni per consentire una comunicazione veloce tra tali GPU. RSC oggi comprende un totale di 760 NVIDIA DGX-A100 sistemi come nodi di elaborazione, per un totale di 6,080 GPU, con ciascuna GPU A100 più potente della V100 utilizzata nel sistema precedente.
Le GPU comunicano tramite un NVIDIA Quantum 200 Gbit/s InfiniBand tessuto Clos a due livelli che non ha sottoscrizioni in eccesso. Il livello di storage di RSC prevede 175 petabyte di Pure Storage FlashArray, 46 petabyte di storage cache nei sistemi Penguin Computing Altus e 10 petabyte di Pure Storage FlashBlade.
I primi benchmark su RSC, rispetto all'infrastruttura di produzione e ricerca legacy di Meta, hanno dimostrato che esegue flussi di lavoro di visione artificiale fino a 20 volte più velocemente, esegue la NVIDIA Collective Communication Library (NCCL) più di nove volte più velocemente e addestra modelli NLP su larga scala. tre volte più veloce. Ciò significa che un modello con decine di miliardi di parametri può completare l’addestramento in tre settimane, rispetto alle nove settimane precedenti.
Una volta completato RSC, la struttura di rete InfiniBand collegherà 16,000 GPU come endpoint, rendendola una delle reti di questo tipo più grandi implementate fino ad oggi. Inoltre, il sistema di memorizzazione nella cache e di archiviazione progettato può gestire 16 TB/s di dati di addestramento e scalarli fino a 1 exabyte.
Sebbene RSC sia attivo e funzionante oggi, il suo sviluppo continua. Una volta completata la fase due della costruzione di RSC, si prevede che diventerà il supercomputer AI più veloce al mondo, con prestazioni di quasi 5 exaflop di calcolo a precisione mista.
Il lavoro continuerà fino al 2022 per aumentare il numero di GPU da 6,080 a 16,000, aumentando le prestazioni di addestramento dell'IA di oltre 2.5 volte. La struttura InfiniBand si espanderà per supportare 16,000 porte in una topologia a due livelli senza oversubscription. Il sistema di storage avrà una larghezza di banda di consegna target di 16 TB/s e una capacità su scala exabyte per soddisfare la crescente domanda.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS feed