In questa recensione, esaminiamo la potente ma piccola GPU NVIDIA L4 su diversi server con approfondimenti di benchmarking AI nel mondo reale.
Nell’incessante torrente di innovazione del mondo dell’intelligenza artificiale di oggi, misurare e comprendere le capacità delle varie piattaforme hardware è fondamentale. Non tutta l'intelligenza artificiale richiede enormi farm di GPU di addestramento, esiste un segmento importante di intelligenza artificiale inferenziale, che spesso richiede meno potenza della GPU, soprattutto all'edge. In questa recensione, diamo uno sguardo a diverse GPU NVIDIA L4, su tre diversi server Dell e a una varietà di carichi di lavoro, incluso MLperf, per vedere come si comporta la L4.
GPU NVIDIA L4
Fondamentalmente, L4 offre ben 30.3 teraFLOP in prestazioni FP32, ideali per attività computazionali ad alta precisione. La sua abilità si estende ai calcoli a precisione mista con Tensor Core TF32, FP16 e BFLOAT16, cruciali per l'efficienza del deep learning, la scheda tecnica L4 cita prestazioni tra 60 e 121 teraFLOP.
Nelle attività a bassa precisione, L4 brilla con 242.5 teraFLOP nei Tensor Core FP8 e INT8, migliorando l'inferenza della rete neurale. La sua memoria GDDR24 da 6 GB, integrata da una larghezza di banda di 300 GB/s, lo rende in grado di gestire set di dati di grandi dimensioni e modelli complessi. L'efficienza energetica dell'L4 è ciò che è più notevole qui, con un TDP da 72 W che lo rende adatto a vari ambienti informatici. Questa combinazione di prestazioni elevate, efficienza della memoria e basso consumo energetico rende NVIDIA L4 una scelta convincente per le sfide computazionali edge.
Specifiche NVIDIA L4 | |
---|---|
FP 32 | 30.3 teraFLOP |
Nucleo Tensoriale TF32 | 60 teraFLOP |
Nucleo tensoriale FP16 | 121 teraFLOP |
BFLOAT16 Nucleo Tensoriale | 121 teraFLOP |
Nucleo tensoriale FP8 | 242.5 teraFLOP |
Nucleo Tensoriale INT8 | TOP 242.5 |
Memoria GPU | 24GB GDDR6 |
Larghezza di banda della memoria della GPU | 300GB / s |
Potenza massima di progettazione termica (TDP) | 72W |
Fattore di forma | PCIe a basso profilo a 1 slot |
Collegamenti | PCIe Gen4x16 |
Tabella delle specifiche | L4 |
Naturalmente, con il prezzo L4 vicino a $ 2500, l'A2 che arriva a circa la metà del prezzo e il vecchio (ma ancora abbastanza capace) T4 disponibile per meno di $ 1000 usato, la domanda ovvia è qual è la differenza tra queste tre GPU inferenti.
Specifiche NVIDIA L4, A2 e T4 | Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
FP 32 | 30.3 teraFLOP | 4.5 teraFLOP | 8.1 teraFLOP |
Nucleo Tensoriale TF32 | 60 teraFLOP | 9 teraFLOP | N/A |
Nucleo tensoriale FP16 | 121 teraFLOP | 18 teraFLOP | N/A |
BFLOAT16 Nucleo Tensoriale | 121 teraFLOP | 18 teraFLOP | N/A |
Nucleo tensoriale FP8 | 242.5 teraFLOP | N/A | N/A |
Nucleo Tensoriale INT8 | TOP 242.5 | 36 TOP | 130 TOP |
Memoria GPU | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
Larghezza di banda della memoria della GPU | 300GB / s | 200GB / s | 320+GB/s |
Potenza massima di progettazione termica (TDP) | 72W | 40-60W | 70W |
Fattore di forma | PCIe a basso profilo a 1 slot | ||
Collegamenti | PCIe Gen4x16 | PCIe Gen4x8 | PCIe Gen3x16 |
Tabella delle specifiche | L4 | A2 | T4 |
Una cosa da capire quando si guardano queste tre schede è che non sono esattamente sostituti generazionali uno a uno, il che spiega perché il T4 rimane ancora, molti anni dopo, una scelta popolare per alcuni casi d'uso. L'A2 è uscito in sostituzione del T4 come opzione a basso consumo e più compatibile (x8 vs x16 meccanico). Tecnicamente, l'L4 è quindi un sostituto del T4, con l'A2 a cavallo di una via di mezzo che potrebbe o meno essere aggiornata ad un certo punto in futuro.
MLPerf Inferenza 3.1 Prestazioni
MLPerf è un consorzio di leader dell'intelligenza artificiale del mondo accademico, della ricerca e dell'industria, istituito per fornire benchmark hardware e software di intelligenza artificiale equi e pertinenti. Questi benchmark sono progettati per misurare le prestazioni di hardware, software e servizi di machine learning in varie attività e scenari.
I nostri test si concentrano su due benchmark MLPerf specifici: Resnet50 e BERT.
- Resnet50: questa è una rete neurale convoluzionale utilizzata principalmente per la classificazione delle immagini. È un buon indicatore della capacità di un sistema di gestire attività di deep learning relative all’elaborazione delle immagini.
- BERT (Rappresentazioni di codificatori bidirezionali da Transformers): questo benchmark si concentra sulle attività di elaborazione del linguaggio naturale, offrendo approfondimenti su come un sistema si comporta nella comprensione e nell'elaborazione del linguaggio umano.
Entrambi questi test sono cruciali per valutare le capacità dell’hardware AI in scenari del mondo reale che coinvolgono l’elaborazione di immagini e linguaggio.
La valutazione di NVIDIA L4 con questi benchmark è fondamentale per aiutare a comprendere le capacità della GPU L4 in specifiche attività di intelligenza artificiale. Offre inoltre informazioni dettagliate su come le diverse configurazioni (singola, doppia e quadrupla) influenzano le prestazioni. Queste informazioni sono vitali per i professionisti e le organizzazioni che desiderano ottimizzare la propria infrastruttura AI.
I modelli funzionano in due modalità chiave: Server e Offline.
- Modalità offline: questa modalità misura le prestazioni di un sistema quando tutti i dati sono disponibili per l'elaborazione simultaneamente. È simile all’elaborazione batch, in cui il sistema elabora un set di dati di grandi dimensioni in un unico batch. La modalità offline è fondamentale per gli scenari in cui la latenza non è una preoccupazione primaria, ma lo sono la velocità effettiva e l'efficienza.
- Modalità server: al contrario, la modalità server valuta le prestazioni del sistema in uno scenario che imita un ambiente server reale, in cui le richieste arrivano una alla volta. Questa modalità è sensibile alla latenza e misura la velocità con cui il sistema può rispondere a ciascuna richiesta. È essenziale per le applicazioni in tempo reale, come server Web o applicazioni interattive, dove è necessaria una risposta immediata.
1 NVIDIA L4 – Dell PowerEdge XR7620
Nell'ambito della nostra recente revisione di Dell PowerEdge XR7620, dotato di una singola NVIDIA L4, l'abbiamo portato al limite per eseguire diverse attività, tra cui MLPerf.
La configurazione del nostro sistema di test includeva i seguenti componenti:
- 2 Xeon Gold 6426Y – 16 core da 2.5 GHz
- 1 NVIDIA L4
- 8 DDR16 da 5 GB
- RAID BOSS da 480 GB1
- Ubuntu Server 22.04
- Driver Nvidia 535
Dell PowerEdge XR7620 1x NVIDIA L4 | Punti |
---|---|
Resnet50 – Server | 12,204.40 |
Resnet50 – Non in linea | 13,010.20 |
BERT K99 – Server | 898.945 |
BERT K99 – Non in linea | 973.435 |
Le prestazioni negli scenari server e offline per Resnet50 e BERT K99 sono quasi identiche, indicando che L4 mantiene prestazioni costanti su diversi modelli di server.
1, 2 e 4 NVIDIA L4 – Dell PowerEdge T560
La configurazione della nostra unità di prova includeva i seguenti componenti:
- 2 Intel Xeon Gold 6448Y (32 core/64 thread ciascuno, TDP da 225 watt, 2.1-4.1 GHz)
- 8 SSD Solidigm P1.6 da 5520 TB con scheda RAID PERC 12
- 1-4 GPU NVIDIA L4
- 8 RDIMM da 64 GB
- Ubuntu Server 22.04
- Driver Nvidia 535
Dell PowerEdge T560 1x NVIDIA L4 | Punti |
---|---|
Resnet50 – Server | 12,204.40 |
Resnet50 – Non in linea | 12,872.10 |
Bert K99 – Server | 898.945 |
Bert K99 – Non in linea | 945.146 |
Nei nostri test con due L4 nel Dell T560, abbiamo osservato questo ridimensionamento quasi lineare delle prestazioni sia per i benchmark Resnet50 che per BERT K99. Questo ridimensionamento testimonia l'efficienza delle GPU L4 e la loro capacità di lavorare in tandem senza perdite significative dovute a sovraccarico o inefficienza.
Dell PowerEdge T560 2x NVIDIA L4 | Punti |
---|---|
Resnet50 – Server | 24,407.50 |
Resnet50 – Non in linea | 25,463.20 |
BERT K99 – Server | 1,801.28 |
BERT K99 – Non in linea | 1,904.10 |
Il coerente scaling lineare a cui abbiamo assistito con due GPU NVIDIA L4 si estende in modo impressionante alle configurazioni con quattro unità L4. Questa scalabilità è particolarmente degna di nota in quanto il mantenimento di miglioramenti prestazionali lineari diventa sempre più impegnativo con ogni GPU aggiunta a causa delle complessità dell'elaborazione parallela e della gestione delle risorse.
Dell PowerEdge T560 4x NVIDIA L4 | Punti |
---|---|
Resnet50 – Server | 48,818.30 |
Resnet50 – Non in linea | 51,381.70 |
BERT K99 – Server | 3,604.96 |
BERT K99 – Non in linea | 3,821.46 |
Questi risultati sono solo a scopo illustrativo e non sono risultati MLPerf competitivi o ufficiali. Per un elenco completo dei risultati ufficiali, per favore visitare la pagina dei risultati MLPerf.
Oltre a convalidare la scalabilità lineare delle GPU NVIDIA L4, i nostri test in laboratorio hanno fatto luce sulle implicazioni pratiche dell'implementazione di queste unità in diversi scenari operativi. Ad esempio, la coerenza delle prestazioni tra modalità server e offline in tutte le configurazioni con le GPU L4 ne rivela l'affidabilità e la versatilità.
Questo aspetto è particolarmente rilevante per le imprese e gli enti di ricerca dove i contesti operativi variano in modo significativo. Inoltre, le nostre osservazioni sull’impatto minimo dei colli di bottiglia dell’interconnessione e sull’efficienza della sincronizzazione GPU nelle configurazioni multi-GPU forniscono informazioni preziose per coloro che desiderano scalare la propria infrastruttura AI. Queste informazioni vanno oltre i semplici numeri di riferimento, offrendo una comprensione più approfondita di come tale hardware possa essere utilizzato in modo ottimale negli scenari del mondo reale, guidando migliori decisioni architetturali e strategie di investimento nell’infrastruttura AI e HPC.
NVIDIA L4 – Prestazioni dell'applicazione
Abbiamo confrontato le prestazioni della nuova NVIDIA L4 con quelle di NVIDIA A2 e NVIDIA T4 precedenti. Per mostrare questo miglioramento delle prestazioni rispetto ai modelli precedenti, abbiamo implementato tutti e tre i modelli all'interno di un server nel nostro laboratorio, con Windows Server 2022 e i più recenti driver NVIDIA, sfruttando la nostra intera suite di test GPU.
Queste carte sono state testate su a Dell Power Edge R760 con la seguente configurazione:
- 2 Intel Xeon Gold 6430 (32 core, 2.1 GHz)
- Di Windows Server 2022
- Driver Nvidia 538.15
- ECC disabilitato su tutte le schede per campionamento 1x
Mentre diamo il via ai test delle prestazioni tra questo gruppo di tre GPU aziendali, è importante notare le differenze prestazionali uniche tra i precedenti modelli A2 e T4. Quando è stato rilasciato l'A2, ha offerto alcuni miglioramenti notevoli come un consumo energetico inferiore e il funzionamento su uno slot PCIe Gen4 x8 più piccolo, invece dello slot PCIe Gen3 x16 più grande richiesto dal vecchio T4. All'inizio gli ha permesso di inserirsi in più sistemi, soprattutto con l'ingombro ridotto necessario.
Frullatore OptiX 4.0
Blender OptiX è un'applicazione di modellazione 3D open source. Questo test può essere eseguito sia per CPU che per GPU, ma abbiamo eseguito solo GPU come la maggior parte degli altri test qui. Questo benchmark è stato eseguito utilizzando l'utilità CLI di Blender Benchmark. Il punteggio è campioni al minuto, dove più alto significa migliore.
Blender 4.0 (Più alto è meglio) |
Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
CLI di GPU Blender – Mostro | 2,207.765 | 458.692 | 850.076 |
CLI di GPU Blender – Junkshop | 1,127.829 | 292.553 | 517.243 |
CLI di GPU Blender – Aula | 1,111.753 | 262.387 | 478.786 |
Test di velocità RAW di Blackmagic
Testiamo CPU e GPU con il RAW Speed Test di Blackmagic che testa la velocità di riproduzione video. Si tratta più di un test ibrido che include le prestazioni di CPU e GPU per la decodifica RAW nel mondo reale. Questi vengono visualizzati come risultati separati ma qui ci concentriamo solo sulle GPU, quindi i risultati della CPU vengono omessi.
Test di velocità RAW di Blackmagic (Più alto è meglio) |
Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
8K CUDA | 95 FPS | 38 FPS | 53 FPS |
GPU Cinebench 2024
Cinebench 2024 di Maxon è un benchmark di rendering di CPU e GPU che utilizza tutti i core e thread della CPU. Ancora una volta, poiché ci stiamo concentrando sui risultati della GPU, non abbiamo eseguito le parti del test relative alla CPU. I punteggi più alti sono migliori.
Cinebench 2024 (Più alto è meglio) |
Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
GPU | 15,263 | 4,006 | 5,644 |
GPUPI
GPUPI 3.3.3 è una versione dell'utilità di benchmarking leggera progettata per calcolare π (pi) su miliardi di decimali utilizzando l'accelerazione hardware tramite GPU e CPU. Sfrutta la potenza di calcolo di OpenCL e CUDA che include unità di elaborazione sia centrali che grafiche. Abbiamo eseguito CUDA solo su tutte e 3 le GPU e i numeri qui rappresentano il tempo di calcolo senza aggiungere il tempo di riduzione. È meglio più basso.
Tempo di calcolo PI GPU in secondi (È meglio più basso) |
Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
GPUPI v3.3 – 1B | 3.732 secondi | 19.799 secondi | 7.504 secondi |
GPUPI v3.3 – 32B | 244.380 secondi | 1,210.801 secondi | 486.231 secondi |
Mentre i risultati precedenti riguardavano solo una singola iterazione di ciascuna scheda, abbiamo anche avuto la possibilità di osservare un'implementazione NVIDIA L5 4x all'interno della scheda Dell PowerEdge T560.
Tempo di calcolo PI GPU in secondi (È meglio più basso) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) con 5x NVIDIA L4 |
---|---|
GPUPI v3.3 – 1B | 0 secondi 850 ms |
GPUPI v3.3 – 32B | 50 secondi 361 ms |
Octanebench
OctaneBench è un'utilità di benchmarking per OctaneRender, un altro renderer 3D con supporto RTX simile a V-Ray.
Ottano (più alto è meglio) | ||||
Scena | nocciolo | Nvidia L4 | Nvidia A2 | NVIDIA T4 |
Interno | Canali informativi | 15.59 | 4.49 | 6.39 |
Illuminazione diretta | 50.85 | 14.32 | 21.76 | |
Tracciatura del percorso | 64.02 | 18.46 | 25.76 | |
L'idea | Canali informativi | 9.30 | 2.77 | 3.93 |
Illuminazione diretta | 39.34 | 11.53 | 16.79 | |
Tracciatura del percorso | 48.24 | 14.21 | 20.32 | |
ATV | Canali informativi | 24.38 | 6.83 | 9.50 |
Illuminazione diretta | 54.86 | 16.05 | 21.98 | |
Tracciatura del percorso | 68.98 | 20.06 | 27.50 | |
Scatola | Canali informativi | 12.89 | 3.88 | 5.42 |
Illuminazione diretta | 48.80 | 14.59 | 21.36 | |
Tracciatura del percorso | 54.56 | 16.51 | 23.85 | |
Punteggio totale | 491.83 | 143.71 | 204.56 |
Geekbench 6 GPU
Geekbench 6 è un benchmark multipiattaforma che misura le prestazioni complessive del sistema. Sono disponibili opzioni di test per il benchmarking sia della CPU che della GPU. I punteggi più alti sono migliori. Ancora una volta, abbiamo esaminato solo i risultati della GPU.
Puoi trovare confronti con qualsiasi sistema desideri nel file Browser Geekbench.
Geekbench 6.1.0 (Più alto è meglio) |
Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark è uno strumento di benchmarking multipiattaforma OpenCL creato da coloro che mantengono il motore di rendering 3D open source LuxRender. Questo strumento esamina le prestazioni della GPU nella modellazione 3D, nell'illuminazione e nel lavoro video. Per questa recensione, abbiamo utilizzato la versione più recente, v4alpha0. In LuxMark, più alto è meglio è quando si tratta del punteggio.
Luxmark v4.0alpha0 GPU OpenCL (Più alto è meglio) |
Nvidia L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
Panchina della sala | 14,328 | 3,759 | 5,893 |
Banco Alimentare | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Forniamo anche GROMACS compilato, un software di dinamica molecolare, specifico per CUDA. Questa compilazione su misura doveva sfruttare le capacità di elaborazione parallela delle 5 GPU NVIDIA L4, essenziali per accelerare le simulazioni computazionali.
Il processo prevedeva l’utilizzo di nvcc, il compilatore CUDA di NVIDIA, insieme a numerose iterazioni dei flag di ottimizzazione appropriati per garantire che i file binari fossero adeguatamente sintonizzati sull’architettura del server. L'inclusione del supporto CUDA nella compilazione GROMACS consente al software di interfacciarsi direttamente con l'hardware GPU, il che può migliorare drasticamente i tempi di calcolo per simulazioni complesse.
Il test: interazione proteica personalizzata in Gromacs
Sfruttando un file di input fornito dalla comunità dal nostro diversificato Discord, che conteneva parametri e strutture su misura per uno specifico studio di interazione proteica, abbiamo avviato una simulazione della dinamica molecolare. I risultati sono stati notevoli: il sistema ha raggiunto una velocità di simulazione di 170.268 nanosecondi al giorno.
GPU | Sistema | ns/giorno | tempo(i) principale(i) |
---|---|---|---|
Nvidia A4000 | Scatola bianca AMD Ryzen 5950x | 84.415 | 163,763 |
RTXNvidia 4070 | Scatola bianca AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
5xNvidia L4 | Dell T560 con 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Più dell'intelligenza artificiale
Con l'hype sull'intelligenza artificiale di gran moda, è facile lasciarsi prendere dalle prestazioni dei modelli su NVIDIA L4, ma ha anche qualche altro asso nella manica, aprendo un regno di possibilità per le applicazioni video. Può ospitare fino a 1,040 flussi video AV1 simultanei a 720p30. Ciò può trasformare il modo in cui i contenuti possono essere trasmessi in streaming dal vivo agli utenti edge, migliorare la narrazione creativa e presentare usi interessanti per esperienze AR/VR coinvolgenti.
NVIDIA L4 eccelle anche nell'ottimizzazione delle prestazioni grafiche, evidente nelle sue capacità di rendering in tempo reale e ray tracing. In un ufficio periferico, L4 è in grado di fornire un calcolo grafico di accelerazione robusto e potente in VDI agli utenti finali che ne hanno più bisogno dove il rendering grafico in tempo reale di alta qualità è essenziale.
Pensieri di chiusura
La GPU NVIDIA L4 fornisce una solida piattaforma per l'intelligenza artificiale edge e l'elaborazione ad alte prestazioni, offrendo efficienza e versatilità senza precedenti in diverse applicazioni. La sua capacità di gestire AI intensiva, accelerazione o pipeline video e di ottimizzare le prestazioni grafiche lo rende la scelta ideale per l'inferenza edge o l'accelerazione del desktop virtuale. La combinazione di elevata potenza computazionale, capacità di memoria avanzate ed efficienza energetica di L4 lo posiziona come un attore chiave nel guidare l’accelerazione dei carichi di lavoro all’edge, soprattutto nei settori ad alta intensità di intelligenza artificiale e grafica.
Non c’è dubbio che l’intelligenza artificiale sia l’occhio del ciclone IT in questi giorni e la domanda per le mostruose GPU H100/H200 continua ad essere alle stelle. Ma c’è anche una forte spinta per portare un set più robusto di kit IT all’edge, dove i dati vengono creati e analizzati. In questi casi è necessaria una GPU più appropriata. Qui NVIDIA L4 eccelle e dovrebbe essere l'opzione predefinita per l'inferenza dei bordi, sia come singola unità che scalata insieme come abbiamo testato nel T560.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed