Lancio del sistema NVIDIA HGX A100

Oggi NVIDIA ha annunciato che, con l'aiuto di alcuni dei suoi partner globali, lancerà i nuovi sistemi NVIDIA HGX A100. I nuovi sistemi stanno cercando di accelerare l’intelligenza artificiale e l’HPC aggiungendo elementi NVIDIA come GPU NVIDIA A100 PCIe da 80 GB, rete NVIDIA NDR 400G InfiniBand e software NVIDIA Magnum IO GPUDirect Storage. Questi nuovi sistemi HGX saranno immessi sul mercato da partner tra cui Atos, Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo, Microsoft Azure e NetApp.

Nvidia HGX A100

NVIDIA produce GPU ad alta potenza da anni. Il mercato emergente dell’intelligenza artificiale, in particolare nell’HPC, ha spinto sempre più supercomputer a sfruttare la tecnologia dell’azienda. La stessa NVIDIA ha realizzato server e workstation HPC negli ultimi anni con i modelli DGX e HGX. Quest'ultimo ha riunito diversi IP NVIDIA sotto lo stesso tetto per prestazioni migliori. I nuovi sistemi fanno questo ancora una volta con l'ultima e la migliore NVIDIA ha da offrire.

GPU NVIDIA A100 da 80 GB PCIe

GPU Nvidia HGX A100

La NVIDIA A100 è stata annunciata lo scorso anno al GTC. Questa nuova GPU da 7 nm sfrutta l'architettura Ampere dell'azienda e contiene 54 milioni di transistor. NVIDIA ha rapidamente migliorato il prodotto con l'introduzione della GPU PCIe NVIDIA A100 da 80 GB, raddoppiandone la memoria. La GPU PCIe A100 da 80 GB è la prima parte dei nuovi sistemi HGX A100. La sua grande capacità di memoria e l'elevata larghezza di banda consentono di conservare in memoria più dati e reti neurali più grandi. Ciò significa una minore comunicazione tra gli internodi e un minor consumo di energia. L'elevata memoria consente anche un throughput più elevato che può portare a risultati più rapidi.

Come affermato, la GPU PCIe NVIDIA A100 da 80 GB è alimentata dall'architettura Ampere dell'azienda. Questa architettura presenta GPU multiistanza, denominata anche MIG. MIG può fornire accelerazione per carichi di lavoro più piccoli, ad esempio l'inferenza dell'intelligenza artificiale. Questa funzionalità consente agli utenti di ridurre sia il calcolo che la memoria con una QoS garantita.

I partner che circondano la GPU PCIe NVIDIA A100 da 80 GB includono Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT e Supermicro. Esistono anche alcuni servizi cloud che forniscono la tecnologia, tra cui AWS, Azure e Oracle.

Rete NVIDIA NDR 400G InfiniBand

Il secondo pezzo del puzzle del sistema NVIDIA HGX A100 sono i nuovi sistemi di switch NVIDIA NDR 400G InfiniBand. Questo sembrerà un po’ ovvio, ma i sistemi HPC necessitano di un throughput di dati molto elevato. NVIDIA ha acquisito Mellanox qualche anno fa per quasi 7 miliardi di dollari. Da allora, ha rilasciato costantemente nuovi prodotti mentre ha gradualmente eliminato il nome Mellanox solo per NVIDIA. L'anno scorso è stata rilasciata la NVIDIA NDR 400G InfiniBand con 3 volte la densità di porte e 32 volte l'accelerazione AI. Questo verrà integrato nei nuovi sistemi HGX attraverso il sistema di switch a configurazione fissa NVIDIA Quantum-2. Si dice che questo sistema fornisca 64 porte di NDR 400Gb/s InfiniBand per porta o 128 porte di NDR200.

Secondo l'azienda, i nuovi switch modulari NVIDIA Quantum-2 forniscono configurazioni di porte scalabili fino a 2,048 porte di NDR 400Gb/s InfiniBand (o 4,096 porte di NDR200) con un throughput bidirezionale totale di 1.64 petabit al secondo. Ciò rappresenta un miglioramento di oltre 5 volte rispetto alla generazione precedente con una scalabilità 6.5 volte maggiore. Utilizzando una topologia di rete DragonFly+, gli utenti possono connettersi a oltre un milione di nodi. Infine, l'azienda ha aggiunto nella sua tecnologia di riduzione dei dati NVIDIA SHARP In-Network Computing di terza generazione, che continua affermando di poter ottenere un'accelerazione AI 3 volte superiore rispetto alle generazioni precedenti.

Gli switch NVIDIA Quantum-2 sono compatibili sia con le versioni precedenti che con le versioni successive. I partner di produzione includono Atos, DDN, Dell Technologies, Excelero, GIGABYTE, HPE, Lenovo, Penguin, QCT, Supermicro, VAST e WekaIO.

Magnum IO GPUDirect Storage

Nvidia HGX A100 arco

Il pezzo finale del nuovo puzzle NVIDIA HDX A100 è il nuovo Magnum IO GPUDirect Storage. Ciò consente l'accesso diretto alla memoria tra la memoria GPU e lo storage. Ciò presenta diversi vantaggi, tra cui una minore latenza I/O, un utilizzo intensivo della larghezza di banda degli adattatori di rete e un impatto minore sulla CPU. Diversi partner hanno ora disponibile Magnum IO GPUDirect Storage, tra cui DDN, Dell Technologies, Excelero, HPE, IBM Storage, Micron, NetApp, Pavilion, ScaleFlux, VAST e WekaIO.

NVIDIA HGX

Interagisci con StorageReview

Lancio del sistema NVIDIA HGX A100

GPU NVIDIA A100 da 80 GB PCIe

Rete NVIDIA NDR 400G InfiniBand

Magnum IO GPUDirect Storage

Adam Armstrong

Approfondimento sulla serie X di Cisco UCS

Annunciato Intel Sapphire Rapids per HPC

VENDITORI DI FIDUCIA