Casa Impresa Recensione Supermicro X13 SuperBlade: l'apparecchio AI tuttofare

Recensione Supermicro X13 SuperBlade: l'apparecchio AI tuttofare

by Jordan Ranous

Lo chassis Supermicro X13 SuperBlade e i blade GPU sono una scelta robusta e altamente adattabile, soprattutto per attività IA di medie dimensioni.

Supermicro è stata un pioniere nella tecnologia dei server blade e i suoi sistemi SuperBlade ne sono una prova. L'introduzione dello chassis e dei blade Supermicro X13 SuperBlade apre un nuovo capitolo per la tecnologia con blade abilitati per GPU e l'integrazione delle più recenti CPU Emerald Rapids e GPU NVIDIA H100. Questi progressi apportano potenza di elaborazione ed efficienza eccezionali, rendendo l'X13 un candidato ideale per varie applicazioni di fascia alta.

Telaio Supermicro X13 SuperBlade

Design e specifiche

Il telaio Supermicro X13 SuperBlade mantiene il familiare design del telaio 8U, noto per la sua alta densità e flessibilità. Ogni chassis supporta fino a 20 blade, con l'ultima offerta notevolmente migliorata grazie all'integrazione di CPU Emerald Rapids e GPU NVIDIA H100. Questa potente combinazione promette di fornire capacità computazionali senza precedenti. Inoltre, lo chassis dispone di comunicazioni InfiniBand 200G ed Ethernet 25G, garantendo trasferimento dati ad alta velocità ed efficienza di rete.

Casi d'uso popolari:

  1. Dati Analytics: Grazie alla potenza di elaborazione avanzata delle CPU Emerald Rapids e alle capacità di elaborazione accelerate delle GPU NVIDIA H100, le X13 SuperBlade sono eccezionalmente adatte per attività impegnative di analisi dei dati. Queste attività includono l'elaborazione dei dati in tempo reale e estese operazioni di data mining, che sono sempre più critiche nel mondo odierno basato sui dati.
  2. Intelligenza artificiale e apprendimento automatico: Le SuperBlade X13 offrono la potenza necessaria per i modelli di intelligenza artificiale e di machine learning, in particolare per gli algoritmi di deep learning che richiedono notevoli risorse computazionali.
  3. Calcolo ad alte prestazioni: Le simulazioni scientifiche, la ricerca medica e le attività computazionali avanzate in ambito ingegneristico trarranno notevoli benefici dalle prestazioni migliorate dell'X13, rendendolo la scelta privilegiata per le applicazioni di calcolo ad alte prestazioni.
  4. Cloud Computing: La maggiore densità e prestazioni dei blade li rendono ideali per i fornitori di servizi cloud. Possono gestire molte applicazioni e servizi basati su cloud, compresi quelli che richiedono virtualizzazione e containerizzazione intensiva.
  5. Reti e comunicazioni: Dotato di comunicazioni InfiniBand 200G e Ethernet 25G, l'X13 eccelle nelle applicazioni a larghezza di banda elevata e bassa latenza, rendendolo adatto per attività di rete e comunicazione impegnative. Grazie alla sua rete esterna, SuperBlade può fungere da hub, fornendo comunicazioni InfiniBand ed Ethernet con server tradizionali non blade nello stesso rack o data center.

Nel nostro banco di prova fornito da Supermicro, avevamo cinque lame in totale. Quattro erano dotati di un singolo processore e della capacità di ospitare un acceleratore PCIe, nel nostro caso quattro NVIDIA H100 e un blade con doppio processore. Seguiremo una successiva revisione del pannello di calcolo, la lunghezza di questa recensione ha reso la sua inclusione un po' eccessiva.

Scheda tecnica Supermicro X13 SuperBlade

Componente Descrizione
Recinto 1xSBE-820H2-630
PSW 6xPWS-3K01A-BR
Fan 2xPWS-DF006-2F
BBP 1xAOC-MB-BBP01-P
CMM MBM-CMM-6
Interruttore IB 1xSBM-IBS-H4020
IT Interruttore 2xSBM-25G-200
Configurazione lama
  • SBI-411E-5G:
    • 1 CPU 8562Y+
    • 8xMEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (unità Samsung 3840G M.2)
    • 1xGPU-NVH100-80
    • 1xSNK-P0088P
    • 1xAOC-IBH-X6HS-P
  • SBI-411E-5G: [Come sopra]
  • SBI-411E-5G: [Come sopra, con unità Micron 480G M.2]
  • SBI-411E-5G: [Come sopra, con unità Micron 480G M.2]
  • SBI-421E-5T3N:
    • 2x8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (unità Micron 480G M.2)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (unità Micron 3840G U.2)
    • 2xSNK-P0088P
    • 1xAOC-IBH-X6HS-P

Supermicro X13 GPU SuperBlade

I blade GPU a prima vista smentiscono la loro potenza, con un'aspirazione nella parte anteriore, con il nostro blade a doppio processore che ha alcuni alloggiamenti NVMe da 2.5″ al posto della GPU.

GPU Supermicro X13 SuperBlade e blade di elaborazione

Sul retro ci sono un numero impressionante di pin per collegare il blade al telaio, trasportando tutta l'energia e i dati.

Guardando all'interno, possiamo vedere gli SSD di avvio m.2 nel blade della GPU.

Dall'alto possiamo vedere le guide sconcertanti dell'aria. Notare la differenza tra un blade GPU e un blade con doppia CPU. La scheda madre blade GPU è identica alla Dual CPU, ma contiene solo la metà I/O posteriore.

Nella parte anteriore possiamo iniziare a vedere le diverse implementazioni. Il blade GPU ha un riser PCIe, mentre il blade CPU ha un riser PCIe U.2 e può ospitare vari componenti nei suoi slot PCIe. Lo chassis è progettato per il raffreddamento ottimale delle GPU passive immettendo innanzitutto aria fresca nella GPU.

Andando avanti, iniziando dalla parte posteriore del telaio, possiamo vedere gli alimentatori e la connettività di rete. Lo switch a larghezza intera superiore è per NVIDIA Quantum InfiniBand da 200 Gbit. Il più grande dei due interruttori inferiori è l'Ethernet 25G e il modulo piccolo al centro è per il modulo di gestione dello chassis.

Parte posteriore del cassis Supermicro X13 SuperBlade

Gestione e distribuzione dello chassis Supermicro X13 SuperBlade

L'integrazione di un modulo di gestione dello chassis (CMM) nello chassis SuperBlade X13 di Supermicro offre una serie di vantaggi che si estendono oltre i singoli blade fino a comprendere l'intero rack, aumentando l'efficienza complessiva e la gestibilità delle operazioni del data center. La CMM funge da punto di controllo centralizzato, semplificando la gestione del sistema SuperBlade X13.

Gestione del telaio Supermicro X13 SuperBlade

Un unico pannello di vetro per tutte le funzioni dello chassis è fondamentale per le piattaforme integrate come uno chassis blade. Sebbene la capacità di accendere e riaccendere i singoli blade possa essere importante per alcuni, una serie di altre funzioni svolgono un ruolo prezioso nelle routine di gestione quotidiana.

La CMM di Supermicro offre un punto di atterraggio centrale per monitorare il telaio, visualizzare i blade installati e gestire gli interruttori integrati installati nella parte posteriore del telaio. Questa gestione fuori banda inserisce anche gli indirizzi IP dei dispositivi, quindi da quel punto centrale puoi facilmente accedere a ciascun dispositivo connesso.

La gestione di ciascun blade installato è simile a quella di un server Supermicro autonomo. Attività come gli aggiornamenti del BIOS vengono eseguite tramite il relativo BMC, come sperimentato in a esperimento precedente. Questo approccio centralizzato consente un'implementazione rapida e aggiornamenti coerenti su tutti i blade, garantendo che ogni componente funzioni con il firmware e le impostazioni più recenti. Tale uniformità è vitale per mantenere la stabilità e le prestazioni del sistema, soprattutto in ambienti informatici densi dove le disparità di configurazione possono portare a inefficienze significative.

Il ruolo della CMM nella gestione del SuperBlade X13 si estende al monitoraggio e al controllo dello stato dell'intero rack. Supervisiona il consumo energetico, il raffreddamento, la rete e l'integrità del sistema, fornendo una visione olistica delle prestazioni del rack. Questa sorveglianza è fondamentale per identificare e affrontare potenziali problemi prima che si aggravino, riducendo al minimo i tempi di inattività e mantenendo un'efficienza operativa ottimale.

Il CMM, oltre a gestire i server blade, si occupa anche della gestione della rete attraverso la stessa unica interfaccia. Ciò consente agli utenti di accedere e visualizzare facilmente le schermate di gestione degli switch di entrambi gli switch collegati, con i rispettivi indirizzi IP visualizzati. La CMM può anche comunicare con i sistemi vicini per implementazioni più ampie, fornendo un pacchetto di gestione completo.

In sostanza, la CMM trasforma la gestione del SuperBlade X13 da una serie di attività individuali in un processo coerente e ottimizzato. È come avere un centro di comando che semplifica la gestione di ogni blade e migliora le prestazioni e l'affidabilità complessive dell'intero rack. Questo approccio alla gestione di blade e rack è utile per i team di gestione dell'hardware, soprattutto nei data center dove scalabilità, affidabilità e utilizzo efficiente del tempo sono fondamentali.

Supermicro SuperBlade SBI-411E-5G – Prestazioni NVIDIA H100

Nell'elaborazione ad alte prestazioni, SuperBlade SBI-411E-5G, con NVIDIA H100, è uno strumento versatile e potente per l'addestramento distribuito e l'inferenza a lama singola. Questa flessibilità è particolarmente evidente quando le richieste computazionali fluttuano in modo significativo, come nei data center che gestiscono carichi di lavoro variabili.

Supermicro X13 SuperBlade-GPU NVIDIA H100

Scenari di formazione distribuita

I nodi SuperBlade H100 eccellono nell'addestramento distribuito, un processo vitale per modelli IA complessi. Immagina uno scenario in cui un modello di rete neurale su larga scala viene addestrato su un vasto set di dati. L'addestramento del modello è distribuito su più blade, ciascuno dei quali sfrutta la potenza delle GPU avanzate dell'H100. Questa distribuzione accelera il processo di formazione e consente di gestire modelli più grandi e set di dati poco pratici su singole macchine.

L'InfiniBand da 200G gioca un ruolo fondamentale in questo caso. La sua comunicazione a larghezza di banda elevata e bassa latenza è essenziale per l'addestramento distribuito, dove lo scambio di dati rapido ed efficiente tra blade è fondamentale. Questa connettività garantisce che i dati e i parametri di apprendimento siano sincronizzati in modo coerente e rapido su tutti i blade, riducendo al minimo i colli di bottiglia spesso riscontrati nell'elaborazione di dati di grandi volumi.

Formazione distribuita in laboratorio

La formazione distribuita ha rivoluzionato il modo in cui affrontiamo le attività di machine learning e deep learning su larga scala. I dati sono fondamentali e la capacità di elaborare grandi quantità di dati di addestramento in modo efficiente rappresenta da tempo il collo di bottiglia. È qui che le librerie open source e l'hardware potente, come Supermicro SuperBlade X13 con quattro GPU PCIe, diventano punti di svolta, soprattutto se collegati tramite una rete InfiniBand da 200G ad alta velocità.

Le librerie open source, come TensorFlow e PyTorch, sono diventate punti fermi nella comunità del machine learning, con il supporto e la convalida di ogni produttore. Offrono framework robusti, flessibili e in continua evoluzione per lo sviluppo e il ridimensionamento di modelli di machine learning. I requisiti computazionali possono essere sconcertanti durante l’addestramento di modelli complessi, come quelli utilizzati nell’elaborazione del linguaggio naturale o nella visione artificiale. È qui che entra in gioco il SuperBlade X13.

Blade X13 abilitato per GPU

La piattaforma SuperBlade X13 è ben nota per le sue capacità di calcolo ad alta densità, che la rendono una scelta eccellente per gli ambienti HPC. Utilizzando i blade SBI-411E-5G a doppia larghezza e mezza altezza dotati di GPU PCIe H100, SuperBlade X13 supporta fino a 10 GPU con raffreddamento ad aria e fino a 20 GPU con raffreddamento a liquido per chassis per gestire immense attività di elaborazione parallela . È importante sottolineare che i blade possono essere riconfigurati in qualsiasi momento, rendendoli estremamente flessibili man mano che cambiano i carichi di lavoro AI di un'azienda.

L'inserimento di InfiniBand nello chassis, con una latenza estremamente bassa e un throughput elevato, aiuta i dati e i parametri del modello a spostarsi costantemente tra i nodi. Questa rete ad alta velocità riduce significativamente il tempo di trasferimento dei dati, spesso un collo di bottiglia nei sistemi distribuiti, soprattutto quando si ha a che fare con set di dati su larga scala e architetture di modelli complessi.

L'integrazione delle librerie open source per la formazione distribuita su questa configurazione ha comportato diversi passaggi chiave. Innanzitutto, abbiamo dovuto selezionare contenitori e librerie ottimizzati per sfruttare appieno le funzionalità della GPU. Ciò consiste nell'utilizzare versioni abilitate per CUDA di queste librerie, garantendo che possano sfruttare direttamente la potenza di elaborazione della GPU. In secondo luogo, InfiniBand deve essere sfruttato con NCCL (NVIDIA Collective Communications Library), fornendo routine di comunicazione ottimizzate per la comunicazione collettiva multi-GPU/multi-nodo.

In pratica, quando si imposta un compito di addestramento distribuito su questa piattaforma, ogni nodo (in questo caso, ogni SuperBlade) esegue una parte del modello. I parametri del modello sono sincronizzati tra i nodi in tempo reale, facilitato dalla velocità e dalla bassa latenza della rete InfiniBand. Questa sincronizzazione è cruciale per la convergenza e l’accuratezza del modello.

TensorRT e LLM

Il TensorRT Large Language Model (LLM) di NVIDIA rappresenta un progresso significativo nell'intelligenza artificiale e nell'apprendimento automatico. Progettato per garantire efficienza e velocità, TensorRT LLM è un componente fondamentale nell'ecosistema dei sistemi server Blade, noto per le sue eccezionali prestazioni nell'elaborazione di complesse attività di intelligenza artificiale. Il suo design soddisfa le esigenze dei professionisti tecnici e dei decisori IT, offrendo una soluzione solida per gestire gli esigenti requisiti computazionali dei moderni data center.

Il framework tecnico di TensorRT LLM di NVIDIA è progettato per sfruttare tutto il potenziale dell'intelligenza artificiale e del deep learning. È progettato per ottimizzare l'inferenza della rete neurale, rendendolo la scelta ideale per ambienti informatici ad alte prestazioni. TensorRT LLM raggiunge una notevole efficienza grazie alla sua capacità di convertire modelli addestrati in motori di runtime ottimizzati, riducendo significativamente la latenza e aumentando il throughput. Questa caratteristica avvantaggia principalmente i sistemi server Blade, dove la rapida elaborazione dei dati e tempi di risposta minimi sono cruciali. Inoltre, la compatibilità con l'ampia gamma di GPU NVIDIA ne migliora la versatilità, rendendolo una soluzione scalabile in diversi contesti IT.

Una delle caratteristiche più straordinarie di TensorRT LLM di NVIDIA è la sua capacità di formazione distribuita. Questo aspetto è particolarmente cruciale negli ambienti in cui i modelli di apprendimento automatico su larga scala sono la norma. La formazione distribuita consente a TensorRT LLM di sfruttare più sistemi, distribuendo il carico computazionale in modo efficiente. Ciò porta a una significativa riduzione dei tempi di addestramento per modelli complessi senza compromettere la precisione o le prestazioni. La capacità di eseguire formazione distribuita su vari nodi rende TensorRT LLM altamente adattabile alle ampie infrastrutture IT, spesso presenti in grandi organizzazioni e strutture di ricerca. Inoltre, questo approccio distribuito facilita la gestione di enormi set di dati, una sfida comune nei progetti di IA avanzati, consentendo così lo sviluppo di modelli di IA più robusti e sofisticati.

L'ottimizzazione di TensorRT LLM e le funzionalità di inferenza ad alte prestazioni sono ideali per la natura densa e interconnessa dei server Blade. Sfruttando TensorRT LLM, i sistemi Blade possono eseguire modelli IA complessi in modo più efficiente, con tempi di elaborazione più rapidi e una latenza ridotta. Ciò è particolarmente critico negli scenari in cui l’analisi dei dati e il processo decisionale in tempo reale sono essenziali, come la modellazione finanziaria o la diagnostica sanitaria.

La combinazione di Supermicro SuperBlade con le capacità di formazione distribuita e l'adattabilità di TensotRT LLM su più sistemi aumenta il valore della risorsa per i professionisti tecnici e i decisori IT. Sfruttando questa potente combinazione, le organizzazioni possono gestire in modo efficiente progetti di intelligenza artificiale su larga scala, garantendo un'elaborazione più rapida, una latenza ridotta e implementazioni di intelligenza artificiale scalabili. Per facilitare ciò, utilizziamo la rete Quantum InfiniBand all'interno dello chassis.

Benchmark delle prestazioni di inferenza a blade singolo con MLPerf

L'architettura da una CPU a una GPU per nodo nei blade GPU offre potenziali vantaggi per i carichi di lavoro di intelligenza artificiale e analisi dei dati, in particolare per le attività di inferenza su blade singolo. Questo design fornisce un rapporto equilibrato di potenza di elaborazione, consentendo un utilizzo ottimale delle capacità della GPU.

Per testare le prestazioni di inferenza a single blade, abbiamo eseguito MLPerf 3.1 Inference, sia offline che server. BERT (Bidirection Encoder Representations from Transformers) è un modello basato su trasformatori utilizzato principalmente per attività di elaborazione del linguaggio naturale come la risposta a domande, la comprensione del linguaggio e la classificazione delle frasi. ResNet-50 è un modello di rete neurale convoluzionale (CNN) ampiamente utilizzato per attività di classificazione delle immagini. È una variante del modello ResNet a 50 layer, noto per la sua architettura profonda ma con prestazioni efficienti.

Inferenza a nodo singolo
ResNet-50 – Non in linea: 46,326.6
ResNet-50 – Server: 47,717.4
BERT K99 – Non in linea: 3,702.4
BERT K99 – Server: 4,564.11
  • Modalità offline: questa modalità misura le prestazioni di un sistema quando tutti i dati sono disponibili per l'elaborazione simultaneamente. È simile all’elaborazione batch, in cui il sistema elabora un set di dati di grandi dimensioni in un unico batch. Questa modalità è fondamentale per gli scenari in cui la latenza non è una preoccupazione primaria, ma lo sono la velocità effettiva e l'efficienza.
  • Modalità server: al contrario, la modalità server valuta le prestazioni del sistema in uno scenario che imita un ambiente server reale, in cui le richieste arrivano una alla volta. Questa modalità è sensibile alla latenza e misura la velocità con cui il sistema può rispondere a ciascuna richiesta. È fondamentale per le applicazioni in tempo reale in cui è necessaria una risposta immediata, come nei server Web o nelle applicazioni interattive.

Nelle attività di inferenza, la GPU è principalmente responsabile del carico computazionale. Abbinandolo a una CPU dedicata, il sistema garantisce che la GPU possa funzionare in modo efficiente senza essere ostacolata dalle risorse condivise della CPU o della piattaforma. Ciò è fondamentale negli scenari di elaborazione dei dati in tempo reale come l'analisi video dal vivo o la traduzione linguistica al volo.

È interessante notare che abbiamo osservato che questo rapporto CPU-GPU 1:1 consente una maggiore prevedibilità delle prestazioni. Ogni nodo opera in modo indipendente, garantendo tempi di elaborazione coerenti e riducendo la variabilità nelle attività di inferenza. Questa prevedibilità è vitale negli ambienti in cui il tempo di risposta è fondamentale.

Nel complesso, la configurazione da una CPU a una GPU nel SuperBlade H100 massimizza l'efficacia di entrambi i componenti. Ciò garantisce che ciascun nodo offra prestazioni ottimali per le attività di inferenza, con ciascun nodo che gestisce modelli e processi indipendenti. Questa architettura migliora la capacità del sistema di gestire le richieste di elaborazione dei dati in tempo reale in modo efficiente e affidabile.

Gestione adattiva del carico di lavoro

Dopo aver considerato tutte le informazioni, è evidente che il sistema SuperBlade è altamente adattabile. Durante le ore di punta, quando la richiesta di inferenza è elevata, è possibile allocare dinamicamente più blade abilitati per GPU per gestire queste attività, garantendo una gestione efficiente delle richieste in tempo reale. Al contrario, durante le ore non di punta, queste risorse potrebbero essere spostate per concentrarsi sulla messa a punto dei modelli di intelligenza artificiale o sull’elaborazione di attività meno urgenti. Questa flessibilità consente un utilizzo ottimale delle risorse, garantendo che il sistema SuperBlade sia robusto ed efficiente nella gestione di carichi computazionali variabili.

I vantaggi del 200G NVIDIAQuantum InfiniBand in questi scenari

L'inclusione di 200G InfiniBand nel sistema SuperBlade H100 migliora questi scenari fornendo la dorsale per il trasferimento dati ad alta velocità. L'addestramento distribuito consente una sincronizzazione più rapida dei dati tra i blade, il che è essenziale per mantenere la coerenza e la velocità del processo di addestramento. L'inferenza a singolo blade garantisce che set di dati di grandi dimensioni possano essere spostati rapidamente sul blade per l'elaborazione, riducendo la latenza e aumentando il throughput.

Che succede con Quantum InfiniBand?

InfiniBand, pietra angolare del calcolo ad alte prestazioni, è una tecnologia di interconnessione ad alta velocità inizialmente sviluppata per soddisfare le crescenti richieste di trasferimento dati e comunicazione all'interno dei cluster di supercalcolo. Questa soluzione di rete altamente specializzata si è evoluta nel corso degli anni, offrendo una latenza estremamente bassa e una larghezza di banda elevata, rendendola ideale per connettere server, sistemi di storage e altri componenti in ambienti HPC.

I blade Supermicro X13 che ci sono stati spediti erano dotati di rete InfiniBand 200G e Ethernet 25G. Ciò si è rivelato particolarmente utile quando si lavorava su formazione distribuita e altre attività di latenza e ad uso intensivo di dati. Dopo alcuni periodi altamente variabili (e dispendiosi in termini di tempo) della formazione sopra menzionata, abbiamo deciso che avevamo bisogno di una metrica diversa per fornire le metriche di test del mondo reale della rete InfiniBand nascoste negli innumerevoli pin del telaio blade. Data l’estrema variabilità della messa a punto run-to-run, sarebbe irresponsabile cercare di quantificare l’impatto, o la mancanza di esso, dell’utilizzo di un sistema multi-nodo come questo per queste attività. I risultati sono stati più che sorprendenti.

entrare Kit cluster NVIDIA. NVIDIA ClusterKit è un toolkit progettato per testare l'intero potenziale dei cluster GPU multinodo, offrendo ai professionisti dell'intelligenza artificiale e dell'HPC un'interessante suite di strumenti per valutare le prestazioni, l'efficienza e la scalabilità dei carichi di lavoro.

Ci siamo concentrati su due strumenti chiave in ClusterKit:

  • Test della larghezza di banda: la larghezza di banda è una metrica critica nell'HPC, poiché riflette la quantità di dati che possono essere trasmessi sulla rete in un dato momento. Abbiamo utilizzato NVIDIA ClusterKit per misurare la larghezza di banda bidirezionale (duplex) tra i nodi nella configurazione Supermicro SuperBlade. Le misurazioni duplex sono essenziali poiché riflettono lo scenario del mondo reale in cui i dati fluiscono simultaneamente in entrambe le direzioni.
  • Test di latenza: la latenza, o il tempo impiegato da un messaggio per viaggiare da un punto a un altro nella rete, è un altro parametro cruciale delle prestazioni. La bassa latenza è significativa nelle applicazioni HPC strettamente accoppiate. La capacità di NVIDIA ClusterKit di misurare con precisione le latenze duplex ha fornito preziose informazioni sulla reattività della rete InfiniBand sui SuperBlade.

Risultati del benchmarking delle GPU SuperBlade InfiniBand e H100 con ClusterKit

Entrando in questa sezione è importante capire che ogni nodo è identificato da un tag univoco (es. smci-a7, smci-a1, ecc.). La denotazione di -1, -3, -5 e -7 è il nome host, che riflette la posizione fisica del blade nello chassis.

Il primo test si è concentrato sulla misurazione della larghezza di banda bidirezionale tra i vari nodi del cluster. Il test ha coinvolto una dimensione del messaggio di 8,388,608 byte, ripetuto 16 volte.

Test diretti della GPU

Per prima cosa diamo uno sguardo ai test GPU Direct. Questo riporta il throughput massimo assoluto della piattaforma blade, utilizzando tutti gli SDK e i toolkit più recenti e migliori disponibili al momento della stesura di questo articolo. È importante notare che il test riporta la larghezza di banda in duplex, il che significa che la larghezza di banda è totale in entrambe le direzioni. La direzione unica sarebbe circa la metà. Il punto fondamentale è che il fattore limitante per la larghezza di banda è l'InfiniBand da 200G, ma come vedremo più avanti, questo non è motivo di preoccupazione.

Test Infiniband ClusterKit sui Supermicro SuperBlades con Divyansh Jain

La matrice seguente mostra la larghezza di banda bidirezionale utilizzando GPUDirect.

Matrice della larghezza di banda MB/s
Rango/Nodo smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
Latenza uSec

Successivamente sono stati ottenuti notevoli risultati dei test di latenza, misurati in microsecondi. I test GPU Direct sono stati altrettanto validi quanto avere più GPU locali su un host.

Rango smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

Test dei vicini GPU

Passando ai test dei vicini GPU, anche in questo caso la larghezza di banda viene riportata in duplex, il che significa che la larghezza di banda è totale in entrambe le direzioni. La direzione unica sarebbe circa la metà. La matrice seguente mostra la larghezza di banda bidirezionale tra le carte H100 in ciascuno dei quattro nodi. Questo non utilizza l'accelerazione delle librerie GPUDirect. La denotazione di 1, 3, 5 e 7 è il nome host, che riflette la posizione fisica del blade nello chassis.

Interruttore Supermicro X13 SuperBlade InfiniBand

Switch InfiniBand HRD SBS-IBS-H4020

Larghezza di banda della GPU adiacente (MB/s)

Il test "GPU Neighbor Bandwidth" misura la velocità di trasferimento dei dati tra GPU vicine all'interno dello stesso sistema o nodo. Questa metrica è fondamentale per le applicazioni che richiedono frequenti scambi di dati tra GPU vicine, come attività di elaborazione parallela multi-GPU. Maggiore è la larghezza di banda, più veloce è il trasferimento dei dati, con conseguenti prestazioni potenzialmente migliorate nelle applicazioni ad uso intensivo di GPU.

GPU Larghezza di banda (MB/s)
smci-a7 con smci-a1 30,653.9
smci-a3 con smci-a5 30,866.7
Media 30,760.3
Larghezza di banda della memoria GPU (MB/s)

Il test "Larghezza di banda della memoria GPU" valuta la velocità con cui i dati possono essere letti o archiviati nella memoria di una GPU dalla GPU stessa. Questa larghezza di banda è un aspetto critico delle prestazioni, in particolare per le applicazioni che coinvolgono set di dati di grandi dimensioni o che richiedono un throughput elevato per attività come l'elaborazione di immagini, simulazioni o deep learning. Una maggiore larghezza di banda della memoria indica una migliore capacità di una GPU di gestire grandi volumi di dati in modo efficiente. Questo test ci mostra che i Blades X13 non hanno problemi a sostenere le GPU H100.

GPU Larghezza di banda
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
Media 55,541.6
Larghezza di banda da GPU a GPU (MB/s)

Questo test misura la larghezza di banda bidirezionale tra diverse GPU. È essenziale per attività che implicano calcoli complessi distribuiti su più GPU, dove la velocità di trasferimento dei dati tra le GPU può avere un impatto significativo sul tempo di elaborazione complessivo. L'elevata larghezza di banda da GPU a GPU è utile per accelerare i flussi di lavoro multi-GPU e le attività di elaborazione parallela.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
Media 30,762.9
Larghezza di banda da GPU0 a host remoto (MB/s)

Il test "GPU0 to Remote Host Bandwidth" quantifica la velocità di trasferimento dei dati tra la GPU primaria (GPU0) e un sistema host remoto. Ciò è fondamentale negli ambienti informatici distribuiti in cui i dati devono essere spostati frequentemente tra la GPU principale e altre parti di un sistema di rete, influenzando attività come la formazione distribuita sul deep learning o l'analisi dei dati su server remoti.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
Latenza della GPU adiacente (μsec)

Il test "GPU Neighbor Latency" misura il tempo impiegato da una piccola quantità di dati per viaggiare da una GPU alla GPU vicina. È auspicabile una latenza inferiore, soprattutto nelle applicazioni che richiedono l'elaborazione dei dati in tempo reale o la comunicazione ad alta velocità tra GPU, come il rendering in tempo reale o simulazioni scientifiche complesse.

GPU Latenza
smci-a7 con smci-a1 11.03
smci-a3 con smci-a5 11.01
Latenza da GPU a host remoto (μsec)

Il test "Latenza da GPU0 a host remoto" misura il ritardo nella comunicazione dei dati tra la GPU primaria (GPU0) e un sistema host remoto. Questa latenza è un fattore critico negli ambienti informatici distribuiti, poiché influenza la reattività e l'efficienza delle applicazioni che si basano sull'interazione tra una GPU e sistemi remoti, come i giochi basati su cloud o l'elaborazione remota dei dati.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
Media 3.37

I test NVIDIA ClusterKit hanno rivelato parametri prestazionali impressionanti per la rete InfiniBand sui Supermicro SuperBlades. I test di larghezza di banda duplex hanno rivelato velocità di trasferimento dati elevate, indicando un utilizzo efficiente delle capacità di InfiniBand. Allo stesso modo, i test di latenza hanno mostrato ritardi minimi, sottolineando l’idoneità della rete per attività HPC impegnative. Ciò significa che questa piattaforma funziona alla pari dei sistemi standalone e offre una densità di elaborazione e rete molto più elevata, il tutto in una soluzione unificata.

Test del server GPU autonomo

Successivamente, abbiamo spostato i 4 NVIDIA H100 in un file Server GPU AMD EPYC Supermicro 4U che può supportarli tutti e 4 contemporaneamente, abbiamo cercato di testare GPU su GPU e latenza. È fondamentale capire che stiamo solo cercando di comprendere il profilo prestazionale delle schede in questo server, senza le comunicazioni cross-blade. Sebbene questo server 4U sia flessibile in termini di schede che può supportare, non ha l'estrema componibilità offerta dallo chassis Supermicro X13 SuperBlade. Naturalmente Supermicro offre come al solito una soluzione per ogni applicazione, comprese anche le GPU con socket raffreddate a liquido.

Per prima cosa diamo un'occhiata alla larghezza di banda peer-to-peer delle 4 GPU in un'unica piattaforma.

 Larghezza di banda in scrittura (GB/s) – Unidirezionale

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

Larghezza di banda in lettura (GB/s) – Unidirezionale

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

È importante notare qui che le GPU GPU0 e GPU1 si trovano su un nodo NUMA e GPU2 e GPU3 si trovano su un altro nodo NUMA. Puoi vedere chiaramente qui l'impatto dell'attraversamento del nodo NUMA sulle prestazioni.

Copy Engine (CE) – Latenza di scrittura (noi)

Infine, misurazione della latenza da GPU a GPU.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

Come previsto, lo spostamento di tutte le GPU in un'unica piattaforma ci garantisce una larghezza di banda doppia rispetto alle connessioni IB da 2G del Blade. La larghezza di banda in questo caso potrebbe essere un fattore da tenere in considerazione per l'applicazione, ma quando si parla di numeri di latenza, lavorando nell'ordine dei microsecondi, non c'è un cambiamento enorme da segnalare passando da una media di 200us GPU a GPU tutto in uno chassis, a solo 1.6us nei blade quando si deve attraversare il bus PCIe, lo switch IB e tornare alla GPU è notevole. Ma è così non è un la storia completa.

Conclusione

Il Supermicro X13 SuperBlade, con le sue CPU Emerald Rapids e le GPU NVIDIA H100, è una gradita evoluzione di ciò che possono essere i servizi blade. Le sue capacità si estendono a varie attività ad alta intensità di calcolo, rendendolo una soluzione versatile e solida per settori che vanno dall'analisi dei dati all'intelligenza artificiale e al cloud computing. Poiché la domanda di elaborazione ad alte prestazioni continua a crescere, X13 è pronto ad affrontare queste sfide, dimostrando l'impegno di Supermicro verso l'innovazione e l'eccellenza nella tecnologia dei server.

Tutto sommato dai test, siamo particolarmente interessati a questa piattaforma grazie alla sua natura unica e altamente adattabile da una prospettiva olistica. È importante contestualizzare l'applicazione della piattaforma.

Immagina uno scenario in un dipartimento di ricerca in cui hai il sistema Supermicro X13 Blade nel tuo rack per tutta la tua potenza di elaborazione elevata. Puoi utilizzare l'infrastruttura di gestione centralizzata integrata nella piattaforma non solo per controllare i blade e la piattaforma stessa, ma anche come hub per il controllo, la rete e la gestione di altre apparecchiature. Collegando un server di archiviazione sufficientemente potente ai SuperBlade per alimentare le GPU affamate di dati puoi acquisire alla velocità di linea tutti i bit nei tuoi modelli. In questo scenario fittizio, possiamo avere tutte le nostre GPU utilizzate ogni giorno da diversi ricercatori e poi, quando arriva il momento, collegare tutti i blade tramite InfiniBand e farli lavorare insieme.

Il test della larghezza di banda del rapporto uno a uno tra CPU e GPU ha inoltre dimostrato che, dato uno chassis blade a pieno carico, è possibile superare le prestazioni di un singolo server con GPU con scheda aggiuntiva con il sistema blade. Con un flusso di lavoro di formazione distribuito adeguatamente progettato, potresti ottenere prestazioni sostanzialmente pari o migliori rispetto a quelle ottenute con tutte le GPU in un singolo nodo, ma ora ottieni una piattaforma che può facilmente svolgere il doppio compito, dimezzando il costo iniziale della GPU . Grazie al supporto delle CPU più recenti, una volta implementate, non vediamo l'ora di passare da HDR InfiniBand a NDR, poiché ciò porrebbe i SuperBlade ben oltre le prestazioni che potresti ottenere in una piattaforma server con GPU singola.

Lo chassis Supermicro X13 SuperBlade e i blade GPU rappresentano una scelta robusta e altamente adattabile per coloro che hanno esigenze di intelligenza artificiale in evoluzione o che cambiano regolarmente. Durante il tempo trascorso con la piattaforma, abbiamo riscontrato necessità di modifiche a DRAM, CPU e GPU o, come è noto nel mondo dell'intelligenza artificiale, "un altro giorno", il tutto gestito con facilità dalla piattaforma. Nel complesso, la piattaforma è solida e si presenta come un dispositivo intrigante e potente per lo spazio dell'intelligenza artificiale senza lasciare molto altro da chiederle. Dato il prezzo dei sistemi concorrenti, se puoi sfruttare la flessibilità di un blade, questo è quasi imbattibile.

Supermicro X13 SuperBlade 

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed