Casa Impresa Annunciata una nuova ondata di innovazioni NVIDIA HPC

Annunciata una nuova ondata di innovazioni NVIDIA HPC

by Harold Fritt

NVIDIA ha approfittato di SC22 per fare annunci che evidenziano una nuova ondata di innovazione HPC che consente scoperte scientifiche rivoluzionarie. NVIDIA ha messo in evidenza Quantum-2, Omniverse, HPC at the edge e Digital Twin Simulation. Ecco la raccolta NVIDIA.

NVIDIA ha approfittato di SC22 per fare annunci che evidenziano una nuova ondata di innovazione HPC che consente scoperte scientifiche rivoluzionarie. NVIDIA ha messo in evidenza Quantum-2, Omniverse, HPC at the edge e Digital Twin Simulation. Ecco la raccolta NVIDIA.

Il primo è l’annuncio che c’è stata un’ampia adozione della sua prossima generazione GPU Tensor Core H100 che a Quantum-2 InfiniBand, comprese nuove offerte sul cloud Microsoft Azure e oltre 50 nuovi sistemi partner per accelerare la scoperta scientifica.

NVIDIA HGX-H100

NVIDIA ha rilasciato aggiornamenti significativi alle sue librerie di accelerazione cuQuantum, CUDA e BlueField DOCA e ha annunciato il supporto per la sua piattaforma di simulazione Omniverse sui sistemi basati su NVIDIA A100 e H100. H100, Quantum-2 e gli aggiornamenti della libreria fanno tutti parte della piattaforma HPC di NVIDIA. La piattaforma HPC include uno stack tecnologico completo con CPU, GPU, DPU, sistemi, reti e un'ampia gamma di software AI e HPC che offrono ai ricercatori la possibilità di accelerare in modo efficiente il loro lavoro su sistemi potenti, in locale o nel cloud.

Azure offre NVIDIA Quantum-2 per carichi di lavoro HPC

L'adozione da parte di Microsoft Azure della piattaforma di rete Quantum-2 InfiniBand ha fatto seguito alla disponibilità generale di NVIDIA Quantum-2 annunciata al GTC di marzo.

Nuovi server potenziati con H100 e intelligenza artificiale NVIDIA

ASUS, Atos, Dell, HPE, Lenovo e Supermicro sono solo alcuni dei partner NVIDIA che annunciano i server basati su H100. Con ogni GPU H100 PCIe è inclusa una licenza di cinque anni per NVIDIA AI Enterprise. Ciò garantisce che le organizzazioni abbiano accesso ai framework e agli strumenti di intelligenza artificiale necessari per creare soluzioni di intelligenza artificiale accelerate da H100, dall’imaging medico ai modelli meteorologici ai sistemi di allarme di sicurezza e altro ancora.

Tra l'ondata di nuovi sistemi c'è il Dell PowerEdge XE9680, anch'esso annunciato durante SC22, che affronta i carichi di lavoro IA e ad alte prestazioni più esigenti. Si tratta del primo sistema a otto vie di Dell basato sulla piattaforma NVIDIA HGX creata appositamente per la convergenza di simulazione, analisi dei dati e intelligenza artificiale.

PowerEdge XE8640, il nuovo sistema HGX H100 di Dell con quattro GPU Hopper, consente alle aziende di sviluppare, addestrare e distribuire modelli di intelligenza artificiale e machine learning. Un sistema rack 4U, XE8640 offre prestazioni di training AI più veloci e maggiori capacità core con un massimo di quattro slot PCIe Gen5, tecnologia NVIDIA Multi-Instance GPU (MIG) e Archiviazione NVIDIA GPUDirect supporto.

Importanti aggiornamenti alle librerie di accelerazione

Per contribuire a promuovere la scoperta scientifica, NVIDIA ha rilasciato aggiornamenti significativi alle sue librerie di accelerazione CUDA, cuQuantum e DOCA, tra cui:

  • Le librerie NVIDIA CUDA ora includono un Eigensolver multi-nodo e multi-GPU che consente scalabilità e prestazioni senza precedenti per le principali applicazioni HPC come VASP, un pacchetto per i calcoli di meccanica quantistica dei principi primi.
  • Il kit di sviluppo software NVIDIA cuQuantum per accelerare i flussi di lavoro del calcolo quantistico ora supporta metodi di rete tensore approssimativi. Ciò consente ai ricercatori di simulare decine di migliaia di qubit e abilita automaticamente il supporto multi-nodo e multi-GPU per la simulazione quantistica con prestazioni senza precedenti utilizzando l'appliance cuQuantum.
  • NVIDIA DOCA, l'SDK cloud aperto e il framework di accelerazione per le DPU NVIDIA BlueField, include programmabilità, sicurezza e funzionalità avanzate per supportare nuovi casi d'uso dello storage.

Queste librerie consentono ai ricercatori di scalare su più server e di dotarli di miglioramenti delle prestazioni per guidare la scoperta scientifica. Le librerie di accelerazione NVIDIA HPC sono disponibili sulle principali piattaforme cloud AWS, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure.

Portali aperti Omniverse per gli scienziati

Successivamente, NVIDIA ha annunciato che NVIDIA Omniverse si connette ora ai principali software di visualizzazione per calcolo scientifico e supporta nuovi carichi di lavoro di rendering batch su sistemi basati su GPU NVIDIA A100 e H100 Tensor Core.

NVIDIA ha inoltre introdotto i gemelli digitali scientifici e industriali in tempo reale per la comunità dei computer ad alte prestazioni, grazie a NVIDIA OVX, un sistema informatico progettato per alimentare i gemelli digitali Omniverse su larga scala, e Omniverse Cloud, un software e infrastruttura-as-a. -offerta di servizi.

Omniverse ora supporta carichi di lavoro batch che ricercatori, scienziati e ingegneri IA e HPC possono eseguire sui loro sistemi A100 o H100 esistenti.

NVIDIA ha inoltre svelato collegamenti con popolari strumenti informatici scientifici come ParaView di Kitware, un'applicazione per la visualizzazione; NVIDIA IndeX per il rendering volumetrico; Modulo NVIDIA per lo sviluppo di modelli fisici-ML; e NeuraVDB per la rappresentazione di dati volumetrici sparsi su larga scala.

Utilizzando Omniverse e carichi di lavoro cloud ibridi, i clienti del computing scientifico possono connettere pipeline di simulazione e visualizzazione legacy per ottenere un'interazione distribuita, completamente interattiva e in tempo reale con i loro modelli e set di dati. Clienti NVIDIA come Argonne National Laboratory, Lockheed Martin e Princeton Plasma Physics Laboratory stanno già vedendo i vantaggi di Omniverse per i carichi di lavoro HPC.

Omniverse riceve il supporto di leader scientifici globali.

L'Argonne National Laboratory sta utilizzando NVIDIA Omniverse sul suo supercomputer Polaris basato su A100 per connettere i suoi strumenti di visualizzazione legacy come primo passo verso lo sviluppo delle basi per i futuri gemelli digitali.

Il Princeton Plasma Physics Laboratory (PPPL), il laboratorio nazionale del Dipartimento dell'Energia degli Stati Uniti per la fisica del plasma e la scienza della fusione, sta utilizzando Omniverse per connettere e accelerare simulatori HPC sintetici all'avanguardia in tempo reale per modellare dispositivi di fusione e controllo sistemi e, infine, migliorare il funzionamento dell’esperimento verso una nuova fonte di energia pulita commercialmente valida.

In linea con l'iniziativa Earth-2 di NVIDIA per accelerare la ricerca sul clima, il leader aerospaziale Lockheed Martin ha recentemente iniziato a utilizzare NVIDIA Omniverse per fornire alla National Oceanic and Atmospheric Administration (NOAA) degli Stati Uniti una migliore consapevolezza ambientale e situazionale globale e per sviluppare una pipeline interattiva di ricerca sul clima.

Disponibilità

Queste nuove funzionalità sono ora supportate in NVIDIA Omniverse e disponibili per sviluppatori e aziende.

La piattaforma NVIDIA risolve i problemi HPC all'edge

Le università e le imprese che condividono il lavoro su lunghe distanze necessitano di un linguaggio comune e di una pipeline sicura per consentire a ogni dispositivo, dai microscopi e sensori ai server e alle reti dei campus, di vedere e comprendere i dati trasmessi. La crescente quantità di dati che devono essere archiviati, trasmessi e analizzati non fa altro che aggravare la sfida.

NVIDIA sta affrontando il problema introducendo una piattaforma informatica ad alte prestazioni che combina l'edge computing e l'intelligenza artificiale per acquisire e consolidare i dati in streaming provenienti da strumenti scientifici all'avanguardia consentendo ai dispositivi di comunicare tra loro su lunghe distanze.

La piattaforma è composta da tre componenti principali, le DPU NVIDIA Holoscan, MetroX-3 e NVIDIA BlueField-3. NVIDIA Holoscan è un kit di sviluppo software che data scientist ed esperti del settore possono utilizzare per creare pipeline accelerate da GPU per sensori che trasmettono dati in streaming. MetroX-3 è un nuovo sistema a lungo raggio che estende la connettività della piattaforma NVIDIA Quantum-2 InfiniBand. Inoltre, le DPU NVIDIA BlueField-3 garantiscono una migrazione dei dati sicura e intelligente.

I ricercatori possono utilizzare la nuova piattaforma NVIDIA per l'edge computing HPC per comunicare in modo sicuro e collaborare alla risoluzione dei problemi e riunire i loro dispositivi e algoritmi disparati per operare come un unico grande supercomputer.

Holoscan per HPC all'Edge

Accelerato dalle piattaforme di elaborazione GPU che includono i sistemi NVIDIA IGX, HGX e DGX, NVIDIA Holoscan offre le prestazioni estreme richieste per elaborare enormi flussi di dati generati dagli strumenti scientifici di tutto il mondo.

NVIDIA Holoscan per HPC include nuove API per C++ e Python che i ricercatori HPC possono utilizzare per creare flussi di lavoro di elaborazione dei dati dei sensori che siano sufficientemente flessibili per formati non immagine e sufficientemente scalabili per tradurre i dati grezzi in informazioni in tempo reale.

Holoscan gestisce inoltre l'allocazione della memoria per garantire scambi di dati senza copie, in modo che gli sviluppatori possano concentrarsi sulla logica del flusso di lavoro e non preoccuparsi della gestione dell'I/O di file e memoria.

Le nuove funzionalità di Holoscan saranno disponibili per tutti gli sviluppatori HPC il prossimo mese.

MetroX-3 va lontano

Il sistema a lungo raggio NVIDIA MetroX-3, disponibile il mese prossimo, estende le più recenti funzionalità cloud-native della piattaforma NVIDIA Quantum-2 InfiniBand dall'edge al core del data center HPC. Consente alle GPU tra siti di condividere in modo sicuro i dati sulla rete InfiniBand fino a 25 km di distanza.

Sfruttando l'accesso remoto diretto alla memoria nativa, gli utenti possono facilmente migrare dati e processi di elaborazione da un mini-cluster connesso a InfiniBand al data center principale o combinare cluster di elaborazione geograficamente dispersi per prestazioni e scalabilità complessive più elevate.

Gli operatori di data center possono effettuare il provisioning, monitorare e operare su tutte le reti di data center connesse a InfiniBand utilizzando NVIDIA Unified Fabric Manager per gestire i propri sistemi MetroX-3.

BlueField per un HPC sicuro ed efficiente

Le DPU NVIDIA BlueField scaricano, accelerano e isolano servizi avanzati di rete, storage e sicurezza per aumentare le prestazioni e l'efficienza dell'HPC moderno.

NVIDIA porta la simulazione del digital twin agli operatori dei data center HPC

La simulazione e i gemelli digitali possono aiutare i progettisti, i costruttori e gli operatori dei data center a creare strutture altamente efficienti e performanti. La piattaforma di simulazione NVIDIA Omniverse aiuta a semplificare il processo di progettazione virtuale collaborativa.

Omniverse ora consente agli operatori dei data center di aggregare input in tempo reale dalle loro principali applicazioni di progettazione, simulazione e monitoraggio assistite da computer di terze parti in modo che possano vedere e lavorare con i loro set di dati completi in tempo reale.

La demo di SC22 Omniverse mostra come Omniverse consenta agli utenti di sfruttare la potenza del calcolo accelerato, della simulazione e dei gemelli digitali operativi collegati al monitoraggio in tempo reale e all'intelligenza artificiale. Ciò consente ai team di semplificare la progettazione della struttura, accelerare la costruzione e l'implementazione e ottimizzare le operazioni in corso.

La demo ha evidenziato anche NVIDIA Air, una piattaforma di simulazione di data center progettata per funzionare con Omniverse per simulare la rete. Con NVIDIA Air, i team possono modellare l'intero stack di rete, consentendo loro di automatizzare e convalidare l'hardware e il software di rete prima della messa in servizio.

Creazione di gemelli digitali per migliorare la progettazione e la simulazione

Durante la pianificazione e la costruzione di uno dei più recenti supercomputer IA di NVIDIA, sono stati raccolti diversi set di dati CAD di ingegneria da strumenti di settore di terze parti come Autodesk Revit, PTC Creo e Trimble SketchUp. Ciò ha consentito a progettisti e ingegneri di visualizzare il modello basato sulla descrizione della scena universale in piena fedeltà e di eseguire iterazioni collaborative sulla progettazione in tempo reale.

PATCH MANAGER è un'applicazione software aziendale per la pianificazione di cablaggio, risorse e connettività punto a punto del livello fisico nei domini di rete. Con PATCH MANAGER connesso a Omniverse, la complessa topologia delle connessioni da porta a porta, i layout di rack e nodi e il cablaggio possono essere integrati direttamente nel modello live. Ciò consente agli ingegneri del data center di avere una visione completa del modello e delle sue dipendenze.

Per prevedere il flusso d'aria e i trasferimenti di calore, gli ingegneri hanno utilizzato Cadence 6SigmaDCX, un software per la fluidodinamica computazionale. Gli ingegneri possono anche utilizzare surrogati IA addestrati con NVIDIA Modulus per analisi "what-if" in tempo quasi reale. Ciò consente ai team di simulare cambiamenti in termini termici e di raffreddamento complessi e di vedere immediatamente i risultati.

E con NVIDIA Air, l'esatta topologia di rete, inclusi protocolli, monitoraggio e automazione, può essere simulata e preconvalidata.

Una volta costruito un data center, i suoi sensori, il sistema di controllo e la telemetria possono essere collegati al gemello digitale all'interno di Omniverse, consentendo il monitoraggio in tempo reale delle operazioni.

Gli ingegneri possono simulare pericoli comuni come picchi di potenza o guasti del sistema di raffreddamento con un gemello digitale perfettamente sincronizzato. Gli operatori possono trarre vantaggio dalle modifiche consigliate dall’intelligenza artificiale che ottimizzano le priorità chiave come l’aumento dell’efficienza energetica e la riduzione dell’impronta di carbonio. Il gemello digitale consente inoltre di testare e convalidare gli aggiornamenti di software e componenti prima della distribuzione nel data center fisico.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed