Home UnternehmenAI NVIDIA L4 GPU Review – Low-Power-Inferenz-Assistent

NVIDIA L4 GPU Review – Low-Power-Inferenz-Assistent

by Jordan Ranous

In diesem Test betrachten wir die mächtige, aber winzige NVIDIA L4-GPU auf mehreren Servern mit realen KI-Benchmarking-Erkenntnissen.

In der nachlassenden Innovationsflut der heutigen KI-Welt ist es von entscheidender Bedeutung, die Fähigkeiten verschiedener Hardwareplattformen zu messen und zu verstehen. Nicht jede KI erfordert riesige Trainings-GPU-Farmen. Es gibt ein wichtiges Segment der Inferenz-KI, das oft weniger GPU-Leistung erfordert, insbesondere am Rand. In diesem Test werfen wir einen Blick auf mehrere NVIDIA L4-GPUs auf drei verschiedenen Dell-Servern und eine Vielzahl von Workloads, einschließlich MLperf, um zu sehen, wie sich der L4 schlägt.

NVIDIA L4

NVIDIA L4-GPU

Im Kern liefert der L4 beeindruckende 30.3 TeraFLOPs in FP32-Leistung, ideal für hochpräzise Rechenaufgaben. Seine Leistungsfähigkeit erstreckt sich auf Berechnungen mit gemischter Präzision mit TF32-, FP16- und BFLOAT16-Tensorkernen, die für die Deep-Learning-Effizienz von entscheidender Bedeutung sind. Das L4-Datenblatt gibt eine Leistung zwischen 60 und 121 TeraFLOPs an.

Bei Aufgaben mit geringer Präzision glänzt der L4 mit 242.5 TeraFLOPs in FP8- und INT8-Tensorkernen und verbessert so die Inferenz neuronaler Netzwerke. Sein 24 GB GDDR6-Speicher, ergänzt durch eine Bandbreite von 300 GB/s, ermöglicht es ihm, große Datensätze und komplexe Modelle zu verarbeiten. Am bemerkenswertesten ist hier die Energieeffizienz des L4, mit einer TDP von 72 W eignet er sich für verschiedene Computerumgebungen. Diese Kombination aus hoher Leistung, Speichereffizienz und geringem Stromverbrauch macht den NVIDIA L4 zu einer überzeugenden Wahl für Edge-Computing-Herausforderungen.

NVIDIA L4-GPU auf R760

NVIDIA L4-Spezifikationen
FP 32 30.3 TeraFLOPs
TF32 Tensorkern 60 TeraFLOPs
FP16 Tensorkern 121 TeraFLOPs
BFLOAT16 Tensorkern 121 TeraFLOPs
FP8 Tensorkern 242.5 TeraFLOPs
INT8 Tensorkern 242.5 TOPs
GPU-Speicher 24GB GDDR6
GPU-Speicherbandbreite 300GB / s
Maximale thermische Designleistung (TDP) 72W
Formfaktor Low-Profile-PCIe mit 1 Steckplatz
Interconnect PCIe-Gen4 x16
Spezifikationsdiagramm L4

Da der L4-Preis bei etwa 2500 US-Dollar liegt, der A2 etwa halb so teuer ist und der ältere (aber immer noch recht leistungsfähige) T4 gebraucht für unter 1000 US-Dollar erhältlich ist, stellt sich natürlich die Frage, was der Unterschied zwischen diesen drei Inferenz-GPUs ist.

NVIDIA L4-, A2- und T4-Spezifikationen NVIDIA L4 Nvidia A2 NVIDIA T4
FP 32 30.3 TeraFLOPs 4.5 TeraFLOPs 8.1 TeraFLOPs
TF32 Tensorkern 60 TeraFLOPs 9 TeraFLOPs N / A
FP16 Tensorkern 121 TeraFLOPs 18 TeraFLOPs N / A
BFLOAT16 Tensorkern 121 TeraFLOPs 18 TeraFLOPs N / A
FP8 Tensorkern 242.5 TeraFLOPs N / A N / A
INT8 Tensorkern 242.5 TOPs 36 TOPS 130 TOPS
GPU-Speicher 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU-Speicherbandbreite 300GB / s 200GB / s 320+ GB/s
Maximale thermische Designleistung (TDP) 72W 40-60W 70W
Formfaktor Low-Profile-PCIe mit 1 Steckplatz
Interconnect PCIe-Gen4 x16 PCIe-Gen4 x8 PCIe-Gen3 x16
Spezifikationsdiagramm L4 A2 T4

Wenn man sich diese drei Karten ansieht, muss man verstehen, dass es sich dabei nicht gerade um einen generationsübergreifenden Eins-zu-eins-Ersatz handelt, was erklärt, warum die T4 auch viele Jahre später noch immer eine beliebte Wahl für einige Anwendungsfälle ist. Der A2 kam als Ersatz für den T4 als stromsparende und kompatiblere (x8 vs. x16 mechanische) Option heraus. Technisch gesehen ist der L4 ein Ersatz für den T4, wobei der A2 eine Zwischenstation darstellt, die möglicherweise irgendwann in der Zukunft aktualisiert wird, vielleicht aber auch nicht.

MLPerf-Inferenz 3.1 Leistung

MLPerf ist ein Konsortium von KI-Führungskräften aus Wissenschaft, Forschung und Industrie, das gegründet wurde, um faire und relevante KI-Hardware- und Software-Benchmarks bereitzustellen. Diese Benchmarks dienen dazu, die Leistung von Hardware, Software und Diensten für maschinelles Lernen bei verschiedenen Aufgaben und Szenarien zu messen.

Unsere Tests konzentrieren sich auf zwei spezifische MLPerf-Benchmarks: Resnet50 und BERT.

  • Resnet50: Dies ist ein Faltungs-Neuronales Netzwerk, das hauptsächlich zur Bildklassifizierung verwendet wird. Dies ist ein guter Indikator dafür, wie gut ein System Deep-Learning-Aufgaben im Zusammenhang mit der Bildverarbeitung bewältigen kann.
  • BERT (Bidirektionale Encoderdarstellungen von Transformers): Dieser Benchmark konzentriert sich auf Aufgaben der Verarbeitung natürlicher Sprache und bietet Einblicke in die Leistung eines Systems beim Verstehen und Verarbeiten menschlicher Sprache.

Beide Tests sind von entscheidender Bedeutung für die Bewertung der Fähigkeiten der KI-Hardware in realen Szenarien mit Bild- und Sprachverarbeitung.

Die Bewertung des NVIDIA L4 mit diesen Benchmarks ist entscheidend, um die Fähigkeiten der L4-GPU bei bestimmten KI-Aufgaben zu verstehen. Es bietet auch Einblicke in den Einfluss verschiedener Konfigurationen (Einzel-, Dual- und Quad-Setups) auf die Leistung. Diese Informationen sind für Fachleute und Organisationen, die ihre KI-Infrastruktur optimieren möchten, von entscheidender Bedeutung.

Die Modelle laufen in zwei Hauptmodi: Server und Offline.

  • Offline-Modus: Dieser Modus misst die Leistung eines Systems, wenn alle Daten gleichzeitig zur Verarbeitung verfügbar sind. Es ähnelt der Stapelverarbeitung, bei der das System einen großen Datensatz in einem einzigen Stapel verarbeitet. Der Offline-Modus ist von entscheidender Bedeutung für Szenarien, in denen die Latenz nicht im Vordergrund steht, Durchsatz und Effizienz jedoch schon.
  • Servermodus: Im Gegensatz dazu bewertet der Servermodus die Leistung des Systems in einem Szenario, das eine reale Serverumgebung nachahmt, in der Anfragen einzeln eingehen. Dieser Modus ist latenzempfindlich und misst, wie schnell das System auf jede Anfrage reagieren kann. Dies ist für Echtzeitanwendungen wie Webserver oder interaktive Anwendungen unerlässlich, bei denen eine sofortige Reaktion erforderlich ist.

1 x NVIDIA L4 – Dell PowerEdge XR7620

NVIDIA L4 im Dell XR7620

Im Rahmen unserer jüngsten Überprüfung des Dell PowerEdge XR7620, ausgestattet mit einer einzigen NVIDIA L4, haben wir es an den Rand gebracht, um mehrere Aufgaben auszuführen, einschließlich MLPerf.

Unsere Testsystemkonfiguration umfasste die folgenden Komponenten:

  • 2 x Xeon Gold 6426Y – 16-Kern 2.5 GHz
  • 1 x NVIDIA L4
  • 8 x 16 GB DDR5
  • 480 GB BOSS RAID1
  • Ubuntu Server 22.04
  • NVIDIA-Treiber 535
Dell PowerEdge XR7620 1x NVIDIA L4 Score
Resnet50 – Server 12,204.40
Resnet50 – Offline 13,010.20
BERT K99 – Server 898.945
BERT K99 – Offline 973.435

Die Leistung in Server- und Offline-Szenarien für Resnet50 und BERT K99 ist nahezu identisch, was darauf hindeutet, dass der L4 über verschiedene Servermodelle hinweg eine konsistente Leistung aufrechterhält.

1, 2 und 4 NVIDIA L4 – Dell PowerEdge T560

Dell PowerEdge T560 Tower – Nvidia L4 GOU x4

Die Konfiguration unseres Testgeräts umfasste die folgenden Komponenten:

  • 2 x Intel Xeon Gold 6448Y (jeweils 32 Kerne/64 Threads, 225 Watt TDP, 2.1–4.1 GHz)
  • 8 x 1.6 TB Solidigm P5520 SSDs mit PERC 12 RAID-Karte
  • 1–4x NVIDIA L4-GPUs
  • 8 x 64 GB RDIMMs
  • Ubuntu Server 22.04
  • NVIDIA-Treiber 535
Gehen Sie vom Edge zurück zum Rechenzentrum und nutzen Sie es der vielseitige Dell T560 Tower Server haben wir festgestellt, dass der L4 im Einzel-GPU-Test genauso gut abschneidet. Dies zeigt, dass beide Plattformen ohne Engpässe eine solide Grundlage für die L4 bilden können.
Dell PowerEdge T560 1x NVIDIA L4 Score
Resnet50 – Server 12,204.40
Resnet50 – Offline 12,872.10
Bert K99 – Server 898.945
Bert K99 – Offline 945.146

Bei unseren Tests mit zwei L4s im Dell T560 haben wir diese nahezu lineare Leistungsskalierung sowohl für den Resnet50- als auch für den BERT K99-Benchmark beobachtet. Diese Skalierung ist ein Beweis für die Effizienz der L4-GPUs und ihre Fähigkeit, ohne nennenswerte Verluste aufgrund von Overhead oder Ineffizienz im Tandem zu arbeiten.

Dell PowerEdge T560 2x NVIDIA L4 Score
Resnet50 – Server 24,407.50
Resnet50 – Offline 25,463.20
BERT K99 – Server 1,801.28
BERT K99 – Offline 1,904.10

Die konsistente lineare Skalierung, die wir mit zwei NVIDIA L4-GPUs beobachtet haben, lässt sich eindrucksvoll auf Konfigurationen mit vier L4-Einheiten übertragen. Diese Skalierung ist besonders bemerkenswert, da die Aufrechterhaltung linearer Leistungssteigerungen aufgrund der Komplexität der Parallelverarbeitung und des Ressourcenmanagements mit jeder hinzugefügten GPU immer schwieriger wird.

Dell PowerEdge T560 4x NVIDIA L4 Score
Resnet50 – Server 48,818.30
Resnet50 – Offline 51,381.70
BERT K99 – Server 3,604.96
BERT K99 – Offline 3,821.46

Diese Ergebnisse dienen nur zur Veranschaulichung und sind keine Wettbewerbs- oder offiziellen MLPerf-Ergebnisse. Für eine vollständige offizielle Ergebnisliste wenden Sie sich bitte an uns Besuchen Sie die MLPerf-Ergebnisseite.

Neben der Validierung der linearen Skalierbarkeit der NVIDIA L4-GPUs geben unsere Tests im Labor Aufschluss über die praktischen Auswirkungen des Einsatzes dieser Einheiten in verschiedenen Betriebsszenarien. Beispielsweise zeigt die konsistente Leistung zwischen Server- und Offline-Modus über alle Konfigurationen hinweg mit den L4-GPUs deren Zuverlässigkeit und Vielseitigkeit.

Dieser Aspekt ist insbesondere für Unternehmen und Forschungseinrichtungen relevant, in denen die betrieblichen Kontexte stark variieren. Darüber hinaus liefern unsere Beobachtungen zu den minimalen Auswirkungen von Verbindungsengpässen und der Effizienz der GPU-Synchronisierung in Multi-GPU-Setups wertvolle Erkenntnisse für diejenigen, die ihre KI-Infrastruktur skalieren möchten. Diese Erkenntnisse gehen über bloße Benchmark-Zahlen hinaus und bieten ein tieferes Verständnis dafür, wie solche Hardware in realen Szenarien optimal genutzt werden kann, und ermöglichen so bessere Architekturentscheidungen und Investitionsstrategien in die KI- und HPC-Infrastruktur.

NVIDIA L4 – Anwendungsleistung

Wir haben die Leistung des neuen NVIDIA L4 mit der Leistung der Vorgängermodelle NVIDIA A2 und NVIDIA T4 verglichen. Um diese Leistungssteigerung gegenüber den Vorgängermodellen zu demonstrieren, haben wir alle drei Modelle in einem Server in unserem Labor mit Windows Server 2022 und den neuesten NVIDIA-Treibern bereitgestellt und dabei unsere gesamte GPU-Testsuite genutzt.

Diese Karten wurden auf einem getestet Dell Poweredge R760 mit folgender Konfiguration:

  • 2 x Intel Xeon Gold 6430 (32 Kerne, 2.1 GHz)
  • Windows Server 2022
  • NVIDIA-Treiber 538.15
  • ECC auf allen Karten für 1x-Sampling deaktiviert

NVIDIA L4 im R760-Riser

Zu Beginn der Leistungstests zwischen dieser Gruppe von drei Enterprise-GPUs ist es wichtig, die einzigartigen Leistungsunterschiede zwischen den früheren A2- und T4-Modellen zu beachten. Als der A2 auf den Markt kam, bot er einige bemerkenswerte Verbesserungen, wie z. B. einen geringeren Stromverbrauch und den Betrieb mit einem kleineren PCIe Gen4 x8-Steckplatz anstelle des größeren PCIe Gen3 x16-Steckplatzes, den der ältere T4 benötigte. Auf Anhieb konnte es in mehr Systeme integriert werden, insbesondere bei geringerem Platzbedarf.

Mixer OptiX 4.0

Blender OptiX ist eine Open-Source-3D-Modellierungsanwendung. Dieser Test kann sowohl für die CPU als auch für die GPU durchgeführt werden, aber wie die meisten anderen Tests hier haben wir nur die GPU durchgeführt. Dieser Benchmark wurde mit dem CLI-Dienstprogramm Blender Benchmark ausgeführt. Die Punktzahl beträgt Samples pro Minute, wobei je höher desto besser ist.

Mixer 4.0
(Höher ist besser)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU Blender CLI – Monster 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – Klassenzimmer 1,111.753 262.387 478.786

Blackmagic RAW-Geschwindigkeitstest

Wir testen CPUs und GPUs mit dem RAW-Geschwindigkeitstest von Blackmagic, der die Geschwindigkeit der Videowiedergabe testet. Dabei handelt es sich eher um einen Hybridtest, der die CPU- und GPU-Leistung für die RAW-Dekodierung in der Praxis einbezieht. Diese werden als separate Ergebnisse angezeigt, aber wir konzentrieren uns hier nur auf die GPUs, sodass die CPU-Ergebnisse weggelassen werden.

Blackmagic RAW-Geschwindigkeitstest
(Höher ist besser)
NVIDIA L4 Nvidia A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024-GPU

Maxons Cinebench 2024 ist ein CPU- und GPU-Rendering-Benchmark, der alle CPU-Kerne und Threads nutzt. Da wir uns wiederum auf GPU-Ergebnisse konzentrieren, haben wir die CPU-Teile des Tests nicht ausgeführt. Höhere Werte sind besser.

Cinebench 2024
(Höher ist besser)
NVIDIA L4 Nvidia A2 NVIDIA T4
GPU 15,263 4,006 5,644

GPU PI

GPUPI 3.3.3 ist eine Version des leichtgewichtigen Benchmarking-Dienstprogramms zur Berechnung von π (pi) auf Milliarden von Dezimalstellen mithilfe der Hardwarebeschleunigung durch GPUs und CPUs. Es nutzt die Rechenleistung von OpenCL und CUDA, die sowohl zentrale als auch grafische Verarbeitungseinheiten umfasst. Wir haben CUDA nur auf allen 3 GPUs ausgeführt und die Zahlen hier sind die Berechnungszeit ohne hinzugefügte Reduktionszeit. Weniger ist besser.

GPU-PI-Berechnungszeit in Sekunden
(Weniger ist besser)
NVIDIA L4 Nvidia A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732er-Jahre 19.799er-Jahre 7.504er-Jahre
GPUPI v3.3 – 32B 244.380er-Jahre 1,210.801er-Jahre 486.231er-Jahre

Während sich die vorherigen Ergebnisse nur auf eine einzelne Iteration jeder Karte konzentrierten, hatten wir auch die Gelegenheit, einen Blick auf eine 5x NVIDIA L4-Bereitstellung innerhalb der Karte zu werfen Dell PowerEdge T560.

GPU-PI-Berechnungszeit in Sekunden
(Weniger ist besser)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) mit 5x NVIDIA L4
GPUPI v3.3 – 1B 0 Sek. 850 ms
GPUPI v3.3 – 32B 50 Sek. 361 ms

Oktanbank

OctaneBench ist ein Benchmarking-Dienstprogramm für OctaneRender, einen weiteren 3D-Renderer mit RTX-Unterstützung ähnlich wie V-Ray.

 Oktanzahl (höher ist besser)
Szene Kernel NVIDIA L4 Nvidia A2 NVIDIA T4
Interieur Infokanäle 15.59 4.49 6.39
Direkte Beleuchtung 50.85 14.32 21.76
Pfadverfolgung 64.02 18.46 25.76
Die Idee Infokanäle 9.30 2.77 3.93
Direkte Beleuchtung 39.34 11.53 16.79
Pfadverfolgung 48.24 14.21 20.32
ATV Infokanäle 24.38 6.83 9.50
Direkte Beleuchtung 54.86 16.05 21.98
Pfadverfolgung 68.98 20.06 27.50
Verpackung Infokanäle 12.89 3.88 5.42
Direkte Beleuchtung 48.80 14.59 21.36
Pfadverfolgung 54.56 16.51 23.85
Gesamtwertung 491.83 143.71 204.56

Geekbench 6-GPU

Geekbench 6 ist ein plattformübergreifender Benchmark, der die Gesamtsystemleistung misst. Es gibt Testmöglichkeiten sowohl für das CPU- als auch für das GPU-Benchmarking. Höhere Werte sind besser. Auch hier haben wir uns nur die GPU-Ergebnisse angesehen.

Vergleiche zu jedem gewünschten System finden Sie im Geekbench Browser.

Geekbench 6.1.0
(Höher ist besser)
NVIDIA L4 Nvidia A2 NVIDIA T4
Geekbench-GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark ist ein plattformübergreifendes OpenCL-Benchmarking-Tool von Betreibern der Open-Source-3D-Rendering-Engine LuxRender. Dieses Tool untersucht die GPU-Leistung bei der 3D-Modellierung, Beleuchtung und Videoarbeit. Für diesen Test haben wir die neueste Version, v4alpha0, verwendet. Bei LuxMark gilt: Höher ist besser, wenn es um die Punktzahl geht.

Luxmark v4.0alpha0
OpenCL-GPUs
(Höher ist besser)
NVIDIA L4 Nvidia A2 NVIDIA T4
Hallenbank 14,328 3,759 5,893
Essensbank 5,330 1,258 2,033

GROMACS CUDA

Wir beziehen auch kompiliertes GROMACS, eine Software für Molekulardynamik, speziell für CUDA. Diese maßgeschneiderte Zusammenstellung sollte die parallelen Verarbeitungsfähigkeiten der 5 NVIDIA L4-GPUs nutzen, die für die Beschleunigung von Rechensimulationen unerlässlich sind.

Der Prozess umfasste die Verwendung von nvcc, dem CUDA-Compiler von NVIDIA, zusammen mit vielen Iterationen der entsprechenden Optimierungsflags, um sicherzustellen, dass die Binärdateien richtig auf die Architektur des Servers abgestimmt waren. Durch die Einbeziehung der CUDA-Unterstützung in die GROMACS-Kompilierung kann die Software direkt mit der GPU-Hardware kommunizieren, was die Rechenzeiten für komplexe Simulationen drastisch verbessern kann.

Der Test: Benutzerdefinierte Proteininteraktion in Gromacs

Mithilfe einer von der Community bereitgestellten Eingabedatei aus unserem vielfältigen Discord, die Parameter und Strukturen enthielt, die auf eine bestimmte Proteininteraktionsstudie zugeschnitten waren, initiierten wir eine Molekulardynamiksimulation. Die Ergebnisse waren bemerkenswert: Das System erreichte eine Simulationsrate von 170.268 Nanosekunden pro Tag.

GPU System ns/Tag Kernzeit(en)
Nvidia A4000 Whitebox AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 mit 2x Intel Xeon Gold 6448Y 170.268 608,912.7

Mehr als KI

Da der Hype um KI in aller Munde ist, kann man sich leicht an der Leistung von Modellen auf dem NVIDIA L4 orientieren, aber es hat auch noch ein paar andere Tricks im Ärmel, die eine Fülle von Möglichkeiten für Videoanwendungen eröffnen. Es kann bis zu 1,040 gleichzeitige AV1-Videostreams mit 720p30 hosten. Dies kann die Art und Weise verändern, wie Inhalte live an Edge-Benutzer gestreamt werden können, das kreative Storytelling verbessern und interessante Einsatzmöglichkeiten für immersive AR/VR-Erlebnisse bieten.

Der NVIDIA L4 zeichnet sich auch durch die Optimierung der Grafikleistung aus, was sich in seinen Fähigkeiten beim Echtzeit-Rendering und Raytracing zeigt. In einem Edge-Büro ist der L4 in der Lage, den Endbenutzern, die sie am meisten benötigen, eine robuste und leistungsstarke Beschleunigungsgrafikberechnung in VDI bereitzustellen, wenn eine hochwertige Grafikwiedergabe in Echtzeit unerlässlich ist.

Abschließende Gedanken

Die NVIDIA L4-GPU bietet eine solide Plattform für Edge-KI und Hochleistungs-Computing und bietet beispiellose Effizienz und Vielseitigkeit für mehrere Anwendungen. Seine Fähigkeit, intensive KI-, Beschleunigungs- oder Video-Pipelines zu bewältigen und die Grafikleistung zu optimieren, macht es zur idealen Wahl für Edge-Inferenz oder virtuelle Desktop-Beschleunigung. Die Kombination aus hoher Rechenleistung, erweiterten Speicherkapazitäten und Energieeffizienz macht den L4 zu einem wichtigen Akteur bei der Beschleunigung von Workloads am Edge, insbesondere in KI- und grafikintensiven Branchen.

NVIDIA L4 Twist-Stack

Es besteht kein Zweifel daran, dass KI heutzutage das Auge des IT-Hurrikans ist und die Nachfrage nach den Monster-H100/H200-GPUs weiterhin explodiert. Es gibt aber auch große Bestrebungen, eine robustere IT-Ausrüstung an den Rand zu bringen, wo Daten erstellt und analysiert werden. In diesen Fällen ist eine geeignetere GPU erforderlich. Hier zeichnet sich der NVIDIA L4 aus und sollte die Standardoption für Edge-Inferencing sein, entweder als einzelne Einheit oder zusammen skaliert, wie wir es im T560 getestet haben.

NVIDIA L4-Produktseite

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed