Casa Consumatori Recensione Comino Grando H100 – 188 GB di memoria GPU NVL

Recensione Comino Grando H100 – 188 GB di memoria GPU NVL

by Lile Smith

Il server Comino Grando H100 offre 2 GPU NVIDIA H100, raffreddamento a liquido e AMD Threadripper PRO 7995WX, progettato per carichi di lavoro AI e HPC.

Il server Comino Grando H100 è l'ultima versione della gamma dell'azienda. Si rivolge agli utenti che hanno bisogno di potenza con una precisione raffinata e raffreddata a liquido. Questa configurazione Grando introduce diversi miglioramenti hardware e di design. Tuttavia, è ancora adatto per applicazioni ad alta richiesta, dall'intelligenza artificiale e dall'apprendimento automatico alle analisi di dati complesse e al rendering visivo.

Comino Grando H100 anteriore

Nella nostra nuova configurazione H100, Comino ha scelto una CPU potente: l'AMD Ryzen Threadripper PRO 7995WX, che si distingue per le attività di elaborazione ad alto numero di core e thread.

Comino Grando H100 coperchio spento

Questa CPU a 96 core è ideale per l'elaborazione parallelizzata, in cui gli utenti possono eseguire set di dati estesi o gestire applicazioni multi-thread che prosperano su più core e thread. La scheda madre ASUS SAGE WRX90 integra questa CPU e fornisce l'architettura per supportare le esigenze di memoria e connettività migliorate dell'H100.

Comino Grando H100: opzioni di processore e memoria

Con 96 core/192 thread, architettura Zen 4 e tecnologia avanzata a 5 nm, è progettato per affrontare facilmente attività come rendering 3D, editing video e simulazioni complesse. Presenta un clock di base di 2.5 GHz (che può arrivare fino a 5.1 GHz), rendendolo ideale per attività multi-thread e single-thread. Supporta fino a 2 TB di memoria DDR5 su otto canali, fornendo un'enorme larghezza di banda per set di dati di grandi dimensioni. Inoltre, la sua compatibilità con la piattaforma WRX90 significa ampie corsie PCIe Gen5 per configurazioni di archiviazione e GPU ad alta velocità.

La configurazione GPU in questo modello Grando presenta due GPU NVIDIA H100 NVL con 94 GB di memoria ciascuna. Questa configurazione a doppia GPU offre ben 188 GB di memoria GPU, migliorando le prestazioni per applicazioni esigenti. È particolarmente utile per i professionisti dell'intelligenza artificiale, del rendering 3D e delle simulazioni scientifiche, dove le limitazioni di memoria GPU possono influire sulla produttività. Il modello Grando è una scelta eccellente per coloro che necessitano di potenti risorse di elaborazione per gestire in modo efficiente grandi set di dati e attività complesse. E grazie al raffreddamento a liquido di Comino, queste GPU ad alta potenza possono funzionare in un fattore di forma a slot singolo, raggiungendo densità che i tradizionali sistemi raffreddati ad aria non possono eguagliare.

Specifiche GPU NVIDIA H100 NVL

FP64 30 teraFLOP
Nucleo tensoriale FP64 60 teraFLOP
FP32 60 teraFLOP
Nucleo Tensoriale TF32* 835 teraFLOP
BFLOAT16 Nucleo Tensoriale* 1,671 teraFLOPS
Nucleo tensoriale FP16* 1,671 teraFLOPS
Nucleo tensoriale FP8* 3,341 teraFLOPS
Nucleo Tensoriale INT8* 3,341 TOP
Memoria GPU 94GB
Larghezza di banda della memoria della GPU 3.9 TB/s
decoder 7 NVDEC
7JPEG
Potenza massima di progettazione termica (TDP) 350-400W (configurabile)
GPU multiistanza Fino a 7 MIGS @ 12 GB ciascuno
Fattore di forma PCIe
raffreddato ad aria a doppio slot
Collegamenti NVIDIA NVLink: 600 GB/s
PCIe Gen5: 128 GB/s
Opzioni server Sistemi certificati NVIDIA e partner con 1–8 GPU
NVIDIA AI aziendale Inclusi

Gli utenti possono scegliere tra la memoria ad alta velocità di livello desktop con Kingston Fury (ideale per attività con bassa latenza) o una capacità maggiore da 512 GB con Kingston Server Premier, per un'affidabilità di livello aziendale e carichi di lavoro che richiedono una maggiore quantità di memoria.

Comino Grando H100: Raffreddamento e potenza

Come nelle precedenti iterazioni Grando, la filosofia di progettazione qui riguarda tanto la praticità quanto le prestazioni. Il suo avanzato sistema di raffreddamento interno presenta una configurazione personalizzata del waterblock che mantiene tutti i componenti freschi, anche sotto carichi di lavoro pesanti.

Questo sistema di raffreddamento a liquido assicura che le GPU mantengano le massime prestazioni senza throttling termico, riducendo al contempo i livelli di rumore. A differenza delle build di server convenzionali che si basano su ventole grandi e rumorose, la soluzione di raffreddamento a liquido di Grando è efficiente e ben progettata. L'architettura di raffreddamento include un blocco di distribuzione dell'acqua centralizzato con raccordi a sgancio rapido antigoccia, che consentono una facile manutenzione con un rischio minimo di perdite o versamenti.

Comino Grando H100 posteriore

Con quattro PSU separate da 1600 W, Grando H100 può mantenere l'uptime anche in caso di guasto dell'alimentatore, una caratteristica fondamentale per gli ambienti aziendali in cui i tempi di inattività devono essere evitati a tutti i costi. Questi alimentatori funzionano insieme senza soluzione di continuità per garantire un'erogazione di potenza costante, anche sotto carichi estremi da 7995WX e GPU dual H100.

Comino Grando H100: progettazione e costruzione

Oltre a potenza e raffreddamento, il layout del Comino Grando H100 è organizzato per fornire un facile accesso ai componenti critici. Abbiamo esaminato il design e la costruzione in dettaglio nel nostro precedente Recensione di Comino Grando, quindi ne esamineremo i punti salienti.

Il pannello frontale ha un array I/O completo, inclusi jack audio, porte USB multiple e opzioni di connettività di rete, rendendolo adatto per ambienti montati su rack e per uso autonomo. Il display LED integrato è più di un semplice tocco decorativo. Fornisce dati di telemetria in tempo reale, tra cui temperature dell'aria e del refrigerante, velocità delle ventole e stato della pompa.

I pulsanti del menu retroilluminati semplificano la navigazione delle informazioni da parte degli utenti. Consentono inoltre l'accesso a impostazioni e diagnosi più approfondite per il monitoraggio e le regolazioni, migliorando l'usabilità e la praticità per la manutenzione regolare.

All'interno, ogni componente è disposto in modo da impedire il movimento durante il trasporto, con rinforzi aggiuntivi attorno a parti sensibili come GPU e SSD. Ciò riflette la dedizione di Grando nel garantire che i propri server siano durevoli e consegnati in modo sicuro.

Il server Comino è anche facile da manutenere e riparare. I cavi, i tubi e i componenti sono instradati molto bene, conferendo all'interno un aspetto pulito, quasi modulare. Questo gioca anche un ruolo pratico nel flusso d'aria e nella facilità di manutenzione, rendendo più facile isolare e risolvere qualsiasi componente senza interrompere il resto della configurazione.

Prestazioni del server Comino Grando H100

Ora, approfondiremo il modo in cui queste scelte di build influiscono sulle prestazioni nel mondo reale. Confronteremo questa configurazione con i due modelli Comino Grando che abbiamo esaminato all'inizio di quest'anno e discuteremo di benchmark specifici in attività computazionali e grafiche. La confronteremo anche con Supermicro AS-2115HV-TNRT.

Sistemi testati

 Il nostro Server Grando H100 build è dotata del processore AMD Threadripper PRO 7995WX, che fornisce 96 core e 192 thread, rendendolo la CPU con la maggiore densità di core in questa gamma. Il sistema è alimentato da 512 GB di memoria Kingston Server Premier DDR5, progettata per carichi di lavoro ad alta larghezza di banda e multitasking intensivo. La configurazione GPU include due GPU NVIDIA H100 NVL con 94 GB di memoria ciascuna.

GPU Comino Grando H100

Il Supermicro AS-2115HV-TNRT il sistema utilizza lo stesso AMD Threadripper PRO 7995WX ma include 520 GB di memoria DDR5-4800 ECC e quattro GPU NVIDIA RTX 6000 Ada. Queste GPU sono orientate verso rendering grafico di fascia alta e attività di visualizzazione professionale. Il sistema Supermicro ha anche un Micron 7450 Max 3.2TB NVMe.

The Grando Server che abbiamo esaminato all'inizio di quest'anno presentava il processore AMD Threadripper PRO 5995WX, una CPU a 64 core e 128 thread, insieme a 512 GB di RAM e sei GPU NVIDIA RTX 4090. Questa configurazione si è concentrata molto sulle prestazioni grafiche, con le RTX 4090 che fornivano un throughput elevato per il rendering e carichi di lavoro GPU generici. Il sistema includeva anche 4x PSU da 1600 W e un SSD NVMe da 2 TB.

L'altro sistema Comino è quello alimentato da 3975 W Stazione di lavoro Grando, che offre 32 core e 64 thread. La sua configurazione GPU è composta da quattro GPU NVIDIA A100, che enfatizzano un equilibrio tra carichi di lavoro incentrati sul calcolo e attività di visualizzazione. È stato abbinato a 512 GB di RAM e un SSD NVMe da 2 TB, rendendolo meno denso dal punto di vista computazionale rispetto ai sistemi più recenti, ma in grado di gestire flussi di lavoro impegnativi.

È importante notare che il precedente Grando Server da noi recensito offrirà probabilmente prestazioni superiori nei benchmark incentrati sulla GPU, in particolare quelli relativi alle attività di rendering e visualizzazione. Le GPU RTX 4090 sono progettate per carichi di lavoro grafici di fascia alta, fornendo una potenza di calcolo sostanziale per tali applicazioni.

Le GPU Nvidia H100 sono acceleratori di elaborazione appositamente progettati che omettono deliberatamente output di visualizzazione e funzionalità consumer, rendendoli puramente focalizzati sui carichi di lavoro dei data center. A differenza delle loro controparti Consumer e Workstation, le H100 non includono porte di visualizzazione o driver grafici Windows poiché sono progettate per il funzionamento di server headless. L'assenza di hardware di codifica NVENC enfatizza ulteriormente la loro natura di sola elaborazione, ottimizzando lo spazio del die per attività AI e HPC piuttosto che per la codifica multimediale.

Risultati del benchmark

Blender 4.0

Il nostro primo benchmark è Blender, una suite completa di creazione 3D open source per progetti di modellazione, animazione, simulazione e rendering. I benchmark di Blender valutano le prestazioni di un sistema nel rendering di scene complesse, un aspetto cruciale per i professionisti degli effetti visivi, dell'animazione e dello sviluppo di giochi. Questo benchmark misura le capacità di rendering di CPU e GPU, che sono rilevanti per server e workstation progettati per l'elaborazione grafica di fascia alta e attività computazionali.

Qui, la configurazione Grando H100 Server eccelle nei test basati sulla CPU grazie all'elevato numero di core dell'AMD Threadripper PRO 7995WX. Supera costantemente gli altri sistemi come il Supermicro AS-2115HV-TNRT in attività di rendering come le scene Monster, Junkshop e Classroom. Tuttavia, i test GPU rivelano i limiti delle GPU H100 nei carichi di lavoro di rendering grafico. Mentre la configurazione H100 fornisce risultati decenti, i sistemi con GPU più generiche hanno prestazioni significativamente migliori, come l'RTX 6000 Ada o l'RTX 4090. Ciò evidenzia la specializzazione dell'H100 in attività computazionali piuttosto che grafiche.

Frullatore
(Campioni al minuto; Più alto è meglio è)
Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Scheda grafica Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Scheda grafica Supermicro AS-2115HV-TNRT overclockata (AMD 7995WX, 4x RTX 6000 Ada)
Test CPU Blender 4.2
Mostro  1,352.19 931 969
Rigattiere  969.44 682 640
Aula 683.30 451 472
Test GPU di Blender 4.2
Mostro 2,521 5,745 N/A
Rigattiere 1,888.28 2,698 N/A
Aula 1,401.96 2,824 N/A

I server Grando precedentemente recensiti sono stati testati con Blender versione 4.0. Ecco i risultati:

Frullatore
(Campioni al minuto; Più alto è meglio è)
Grande Server
(TR W5995WX, 512 GB, 6x 4090)
Stazione di lavoro Grando
(TR 3975WX, 512 GB, 4x A100)
Test CPU Blender 4.0
Mostro  568.02 334.40
Rigattiere  386.53 231.90
Aula 293.91 174.21
Test GPU di Blender 4.0
Mostro 5,880.71 1,656.34
Rigattiere 2,809.36 1,137.73
Aula 2,895.54 953.46

Test di velocità RAW di Blackmagic

Il Blackmagic RAW Speed ​​Test misura la velocità di elaborazione per formati video di alta qualità, un aspetto essenziale per server e workstation nella produzione e nell'editing video. Valuta il modo in cui i sistemi gestiscono i file video RAW, influenzando l'efficienza del flusso di lavoro e la produttività negli ambienti di produzione multimediale.

Nel Blackmagic RAW Speed ​​Test, il Grando Server H100 dimostra ottime prestazioni della CPU nella decodifica video RAW 8K, ma è carente nelle attività basate su CUDA, come ha fatto il T1000 più piccolo in questo sistema. I sistemi con GPU come RTX 4090 e RTX 6000 Ada offrono supporto DirectX in Windows, mentre le GPU incentrate sulle aziende non hanno tale supporto in modo nativo.

Test di velocità RAW di Blackmagic Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Grande Server
(TR W5995WX, 512 GB, 6x 4090)
Stazione di lavoro Grando
(TR 3975WX, 512 GB, 4x A100)
Scheda grafica Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada)
CPU 8K 156 FPS 132 FPS 135 FPS 132 fps
8K CUDA 144 FPS 345 FPS 309 FPS 664 fps

Compressione a 7 zip

Il benchmark di compressione 7-zip mette alla prova l'efficienza di un sistema nella gestione della compressione e decompressione dei dati, che è fondamentale per la gestione di set di dati di grandi dimensioni e l'ottimizzazione dell'archiviazione. Questo benchmark riflette le prestazioni di server e workstation in operazioni ad alta intensità di dati, dove la velocità e l'efficienza nella manipolazione dei dati sono vitali.

Qui, il Grando Server ha fornito i migliori risultati di compressione e decompressione tra i sistemi testati. Tuttavia, in termini di efficienza complessiva, la configurazione Supermicro AS-2115HV-TNRT overclockata si avvicina.

Benchmark di compressione 7-Zip (più alto è meglio è) Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Grande Server
(TR W5995WX, 512 GB, 6x 4090)
Stazione di lavoro Grando
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Overclockato
(AMD 7995WX, 4x RTX 6000 Ada)
Compressione
Utilizzo attuale della CPU 5,582% 3,379% 3,439% 5,571% 6,456%
Valutazione/utilizzo corrente 8.627 GIPS 7.630 GIPS 7.094 GIPS 7.835 GIPS 9.373 GIPS
Corrente nominale 481.539 GIPS 257.832 GIPS 243.994 GIPS 436.490 GIPS 605.097 GIPS
Utilizzo della CPU risultante 5,561% 3,362% 3,406% 5,599% 6,433%
Valutazione/Utilizzo risultante 8.631 GIPS 7.697 GIPS 7.264 GIPS 7.863 GIPS 9.420 GIPS
Valutazione risultante 480.006 GIPS 258.756 GIPS 247.396 GIPS 440.288 GIPS 605.984 GIPS
decompressione
Utilizzo attuale della CPU 6,270% 6,015% 6,286% 6,223% 6,343%
Valutazione/utilizzo corrente 7.411 GIPS 5.585 GIPS 5.434 GIPS 7.215 GIPS 9.810 GIPS
Corrente nominale 464.701 GIPS 335.958 GIPS 341.599 GIPS 449.012 GIPS 622.250 GIPS
Utilizzo della CPU risultante 6,238% 6,053% 6,269% 6,213% 6,312%
Valutazione/Utilizzo risultante 7.589 GIPS 5.603 GIPS 5.468 GIPS 7.165 GIPS 9.834 GIPS
Valutazione risultante 473.375 GIPS 339.171 GIPS 342.766 GIPS 445.130 GIPS 620.749 GIPS
Valutazioni totali
Utilizzo totale della CPU 5,900% 4,708% 4,837% 5,906% 6,373%
Valutazione/utilizzo totale 8.110 GIPS 6.650 GIPS 6.366 GIPS 7.514 GIPS 9.627 GIPS
Valutazione totale 476.690 GIPS 298.963 GIPS 295.081 GIPS 442.709 GIPS 613.366 GIPS

Y-Cruncher

Y-Cruncher è un benchmark computazionale che mette alla prova la capacità di un sistema di gestire operazioni matematiche complesse, calcolando con precisione Pi fino a trilioni di cifre. Questo benchmark indica la potenza di calcolo di server e workstation, in particolare per l'uso nella ricerca scientifica e nelle simulazioni che richiedono un'intensa elaborazione dei numeri.

In Y-Cruncher, la configurazione Grando Server H100 eccelle nel tempo di calcolo totale per calcolare Pi su tutti i livelli di cifre. L'elevato numero di core dell'AMD Threadripper PRO 7995WX garantisce che questo sistema sia leader nelle attività ad alta intensità di CPU. Tuttavia, la configurazione Supermicro AS-2115HV-TNRT overclockata riduce notevolmente il divario, mostrando i vantaggi della messa a punto ottimizzata delle prestazioni per questi carichi di lavoro.

Y-Cruncher (tempo di calcolo totale) Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Grande Server
(TR W5995WX, 512 GB, 6x 4090)
Postazione di lavoro Grando
(TR 3975WX, 512 GB, 4x A100)
Scheda grafica Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada)
1 miliardo di cifre secondi 7.523 secondi 11.023 secondi 11.759 8.547 secondi 6.009 secondi
2.5 miliardo di cifre secondi 15.392 secondi 28.693 secondi 32.073 17.493 secondi 13.838 secondi
5 miliardo di cifre secondi 29.420 secondi 61.786 secondi 69.869 33.584 secondi 27.184 secondi
10 miliardo di cifre secondi 60.089 secondi 130.547 secondi 151.820 67.849 secondi 58.283 secondi
25 miliardo di cifre secondi 214.246 secondi 353.858 secondi 425.824 182.880 secondi 161.913 secondi
50 miliardo di cifre secondi 594.939 secondi 788.912 secondi 971.086 417.853 secondi N/A

BBP y-cruncher

Questo benchmark y-cruncher utilizza le formule Bailey-Borwein-Plouffe (BBP) per calcolare enormi cifre esadecimali di Pi, misurando il tempo di elaborazione totale della CPU, l'utilizzo e l'efficienza multi-core.

Il benchmark BBP di y-cruncher evidenzia l'efficienza del Grando Server H100 nella gestione di attività di calcolo massicce. In tutti i test, il Grando Server funziona bene, ottenendo il tempo di calcolo totale più veloce per calcoli da 1 BBP e 10 BBP. La sua efficienza multi-core nel test da 100 BBP, al 98.68%, è leggermente inferiore ai sistemi Supermicro AS-2115HV-TNRT ma è comunque altamente efficace. La configurazione Supermicro overclockata supera la Supermicro standard nel tempo totale per tutti i livelli BBP. Tuttavia, il Grando H100 è costantemente leader nella velocità di calcolo nel mondo reale per attività BBP più piccole, probabilmente grazie alle sue capacità multi-threading ottimizzate e al rapido cambio di contesto.

Tuttavia, per quanto riguarda l'utilizzo della CPU, i sistemi Supermicro dimostrano un'efficienza di utilizzo dei core leggermente migliore, il che indica che potrebbero sfruttare la loro architettura in modo più efficace per carichi di lavoro paralleli sostenuti.

Segno di riferimento Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Overlock
(AMD 7995WX, 4x RTX 6000 Ada)
1 BBP
  • Tempo totale: 0.173 secondi
  • Utilizzo della CPU: 6,140.43%
  • Efficienza multi-core: 31.98%
  • Tempo totale: 0.256 secondi
  • Utilizzo CPU: 7,061.79%
  • Efficienza multi-core: 36.78%
  • Tempo totale: 0.178 secondi
  • Utilizzo della CPU: 3,968.01%
  • Efficienza multi-core: 41.33%
10 BBP
  • Tempo totale: 1.301 secondi
  • Utilizzo della CPU: 16,590.73%
  • Efficienza multi-core: 84.41%
  • Tempo totale: 2.006 secondi
  • Utilizzo CPU: 17,317.36%
  • Efficienza multi-core: 90.19%
  • Tempo totale: 1.458 secondi
  • Utilizzo della CPU: 8,574.02%
  • Efficienza multi-core: 89.31%
100 BBP
  • Tempo totale: 13.966 secondi
  • Utilizzo della CPU: 18,846.58%
  • Efficienza multi-core: 98.68%
  • Tempo totale: 21.434 secondi
  • Utilizzo CPU: 18,989.11%
  • Efficienza multi-core: 98.90%
  • Tempo totale: 15.876 secondi
  • Utilizzo della CPU: 9,488.48%
  • Efficienza multi-core: 98.84%

Geekbench 6

Geekbench 6 misura le prestazioni computazionali di CPU e GPU, abbracciando funzionalità single-core e multi-core e la potenza di elaborazione grafica. Questo benchmark è essenziale per valutare l'efficienza complessiva di elaborazione di server e workstation in varie attività, tra cui simulazioni, analisi dei dati e rendering grafico.

I risultati di Geekbench 6 dimostrano che il Grando Server H100 è un performer di alto livello nelle attività CPU multi-core, grazie al suo processore a 96 core. Tuttavia, nei punteggi GPU, la configurazione H100 supera la Supermicro AS-2115HV-TNRT, che sfrutta le GPU RTX 6000 Ada per prestazioni grafiche superiori.

Geekbench 6 (Più alto è meglio) Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Server Grando (TR W5995WX, 512 GB, 6x 4090) Stazione di lavoro Grando (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
CPU single-core 2,893 2,127 2,131 2,875
CPU multicore 28,600 21,621 20,411 24,985
GPU 298,220 294,894 193,447 307,510

Cinebench R23

Cinebench R23 misura la capacità di rendering della CPU, concentrandosi sulle prestazioni single-core e multi-core. È un punto di riferimento essenziale per valutare le prestazioni di un server o di una workstation nella creazione di contenuti, nel rendering 3D e in altre attività ad uso intensivo della CPU. L'MP Ratio (rapporto di prestazioni multi-core) fornisce inoltre informazioni sull'efficacia con cui un sistema utilizza i suoi core multipli.

La configurazione H100 è leader nelle prestazioni multi-core, sfruttando l'enorme numero di core del Threadripper PRO 7995WX. Tuttavia, le sue prestazioni single-core sono alla pari con gli altri sistemi. Il rapporto MP enfatizza la scalabilità del 7995WX nelle applicazioni multi-thread. Tuttavia, la natura agnostica della GPU di questo benchmark impedisce alla configurazione H100 di mostrare limitazioni relative alla GPU, rendendola più competitiva su tutta la linea.

Cinebench R23
(Più alto è meglio)
Server Grando
Processore AMD Ryzen 7995 2U (100x HXNUMX)
Server Grando (TR W5995WX, 512 GB, 6x 4090) Stazione di lavoro Grando (TR 3975WX, 512 GB, 4x A100) Scheda grafica Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada)
CPU multicore  159,930 Punti 73,556 punti 49,534 punti 111,792 Punti 132,044 punti
CPU single-core 1,876 punti 1,484 punti 1,468 punti 1,864 punti 1,887 punti
Rapporto MP 85.26 x 49.56x 33.75x 59.98x 69.99x

Archiviazione diretta GPU

Uno dei test che abbiamo condotto su questo server è stato il test Magnum IO GPU Direct Storage (GDS). GDS è una funzionalità sviluppata da NVIDIA che consente alle GPU di bypassare la CPU quando accedono ai dati archiviati su unità NVMe o altri dispositivi di archiviazione ad alta velocità. Invece di instradare i dati attraverso la CPU e la memoria di sistema, GDS consente la comunicazione diretta tra la GPU e il dispositivo di archiviazione, riducendo significativamente la latenza e migliorando la velocità di elaborazione dei dati.

Come funziona l'archiviazione diretta GPU

Tradizionalmente, quando una GPU elabora dati archiviati su un'unità NVMe, i dati devono prima passare attraverso la CPU e la memoria di sistema prima di raggiungere la GPU. Questo processo introduce colli di bottiglia, poiché la CPU diventa un intermediario, aggiungendo latenza e consumando preziose risorse di sistema. GPU Direct Storage elimina questa inefficienza consentendo alla GPU di accedere ai dati direttamente dal dispositivo di archiviazione tramite il bus PCIe. Questo percorso diretto riduce il sovraccarico associato allo spostamento dei dati, consentendo trasferimenti di dati più rapidi ed efficienti.

I carichi di lavoro AI, in particolare quelli che coinvolgono il deep learning, sono altamente intensivi in ​​termini di dati. L'addestramento di grandi reti neurali richiede solitamente l'elaborazione di terabyte di dati e qualsiasi ritardo nel trasferimento dei dati può portare a GPU sottoutilizzate e tempi di addestramento più lunghi. GPU Direct Storage affronta questa sfida assicurando che i dati vengano consegnati alla GPU il più rapidamente possibile, riducendo al minimo i tempi di inattività e massimizzando l'efficienza computazionale.

Inoltre, GDS è particolarmente utile per carichi di lavoro che comportano lo streaming di grandi set di dati, come l'elaborazione video, l'elaborazione del linguaggio naturale o l'inferenza in tempo reale. Riducendo la dipendenza dalla CPU, GDS accelera lo spostamento dei dati e libera risorse della CPU per altre attività, migliorando ulteriormente le prestazioni complessive del sistema.

Abbiamo testato a fondo il server eseguendo un'ampia valutazione GDSIO sul Comino Grando, esplorando varie configurazioni per valutarne le prestazioni in diversi scenari. Questo tipo di test è fondamentale per un server di questo calibro, poiché simula ambienti simili a workstation e fornisce approfondimenti sulle sue capacità durante i test ablativi per l'addestramento di modelli di grandi dimensioni. Per l'archiviazione, abbiamo sfruttato un SSD Solidigm D7-PS1010 Gen5.

Matrice di configurazione del test

Abbiamo testato sistematicamente ogni combinazione dei seguenti parametri:

  • Dimensioni dei blocchi: 1M, 128K, 64K, 16K, 8K
  • Numero di fili: 128, 64, 32, 16, 8, 4, 1
  • Conteggio dei lavori: 16, 8, 4, 1
  • Dimensioni lotto: 32, 16, 8, 4, 1

Per questa revisione, ci siamo concentrati sulla velocità di lettura e scrittura sequenziale. Abbiamo eseguito ogni carico di lavoro GDSIO alla sua data dimensione di blocco e conteggio di thread su più dimensioni di job e batch. Le cifre riportate sono le medie di ogni combinazione di job e conteggio di batch.

Analisi delle prestazioni

I carichi di lavoro AI, in particolare nella fase di training, richiedono un'elaborazione efficiente di enormi quantità di dati. Questi carichi di lavoro in genere traggono vantaggio da grandi dimensioni di blocco che possono massimizzare la produttività durante la lettura di set di dati di training o la scrittura di checkpoint di modello. Nei nostri test completi sulle capacità di GPU Direct Storage, ci siamo concentrati su vari modelli e configurazioni di I/O per comprendere le caratteristiche delle prestazioni del sistema.

Le prestazioni di I/O sequenziali con dimensioni di blocco di 1M hanno dimostrato risultati impressionanti tra le nostre configurazioni di test. Il sistema ha raggiunto una notevole velocità di lettura sequenziale di 8.56 GiB/s (dimensione di blocco di 1M, dimensione di batch 4, profondità di IO 128 e 128 thread su 16 job). Questo livello di prestazioni è particolarmente vantaggioso per carichi di lavoro che comportano il caricamento di grandi modelli pre-addestrati, l'elaborazione di set di dati estesi durante le fasi di addestramento o la gestione di flussi di dati sequenziali come l'elaborazione video per applicazioni di visione artificiale.

Per le operazioni di scrittura sequenziale, il sistema ha fornito 7.57 GiB/s (dimensione blocco 1 M, dimensione batch 8, profondità IO 16, con 16 thread su 8 processi), rendendolo altamente efficace per gli scenari che richiedono frequenti checkpoint del modello durante la formazione distribuita, il salvataggio dei risultati intermedi o la scrittura di dati elaborati in operazioni batch.

Conclusione

Il server Comino Grando H100 è un'aggiunta impressionante alla gamma dell'azienda, offrendo un'alternativa unica alle altre configurazioni. Alimentato da una CPU AMD Threadripper PRO 7995WX e 512 GB di memoria DDR5, espandibile fino a 1 TB, il sistema Grando è evidenziato da due GPU NVIDIA H100 NVL. Mentre questa configurazione fornisce prestazioni eccezionali per flussi di lavoro basati sull'intelligenza artificiale, avviene a scapito delle prestazioni della GPU nei benchmark di rendering tradizionali (come Luxmark e OctaneBench), dove sistemi come il server Grando dotato di RTX 4090 e le configurazioni Supermicro basate su RTX 6000 Ada sono in testa. Detto questo, le prestazioni dell'H100 nei test ad alta intensità di CPU come il rendering multi-core di Blender, la compressione 7-Zip e Y-Cruncher superano costantemente gli altri sistemi testati.

Per quanto riguarda il design, il server Comino Grando H100 può ospitare componenti ad alte prestazioni in un fattore di forma compatto, cosa che spesso rappresenta una sfida per gli chassis standard. Grazie al suo sistema Direct Liquid Cooling (DLC) personalizzato, il server può gestire facilmente configurazioni come le doppie GPU NVIDIA H100. Questa soluzione di raffreddamento avanzata mantiene il calore sotto controllo e assicura che il sistema rimanga stabile durante le attività impegnative e ad alte prestazioni. Ciò che è particolarmente unico in questo nuovo sistema Comino è il modo in cui riesce a sfruttare principalmente hardware di livello consumer per creare una soluzione efficiente e relativamente conveniente, rendendolo un'opzione interessante per professionisti e aziende che cercano di massimizzare la potenza della GPU senza spendere una fortuna.

Nel complesso, Comino Grando H100 è una scelta eccellente per aziende e professionisti che danno priorità all'ottimizzazione AI, alle attività di calcolo e all'affidabilità in ambienti esigenti. Il suo design unico e le innovazioni di raffreddamento offrono flessibilità e prestazioni per carichi di lavoro basati su AI. Tuttavia, configurazioni alternative come il Grando Server dotato di RTX 4090 o i sistemi basati su RTX 6000 Ada potrebbero essere più adatte per gli utenti concentrati sul rendering GPU tradizionale.

Sistemi Comino

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed