首頁 EnterpriseAI NVIDIA L4 GPU 評測 – 低功耗推理嚮導

NVIDIA L4 GPU 評測 – 低功耗推理嚮導

by 喬丹拉努斯

在本次評測中,我們著眼於跨多個伺服器的強大且微小的 NVIDIA L4 GPU,以及真實世界的 AI 基準測試見解。

在當今人工智慧世界的創新洪流中,測量和了解各種硬體平台的功能至關重要。並非所有人工智慧都需要龐大的訓練 GPU 群,推理人工智慧的一個重要部分通常需要較少的 GPU 能力,尤其是在邊緣。在本次評測中,我們研究了三款不同戴爾伺服器上的多個 NVIDIA L4 GPU,以及包含 MLperf 在內的各種工作負載,以了解 L4 的表現如何。

英偉達 L4

NVIDIA L4 GPU

L4 的核心可提供令人印象深刻的 30.3 teraFLOPs FP32 效能,非常適合高精度運算任務。其強大功能擴展到使用 TF32、FP16 和 BFLOAT16 Tensor Core 進行混合精度計算,這對於深度學習效率至關重要,L4 規格表引用了 60 至 121 teraFLOP 的效能。

在低精確度任務中,L4 在 FP242.5 和 INT8 Tensor Core 中表現出色,可實現 8 teraFLOP,增強神經網路推理能力。其 24GB GDDR6 顯存輔以 300GB/s 頻寬,使其能夠處理大型資料集和複雜模型。 L4 的能源效率是這裡最引人注目的,72W TDP 使其適用於各種運算環境。高效能、記憶體效率和低功耗的結合使 NVIDIA L4 成為應對邊緣運算挑戰的絕佳選擇。

R4 之上的 NVIDIA L760 GPU

NVIDIA L4 規格
FP 32 30.3 兆次浮點運算
TF32 張量核心 60 兆次浮點運算
FP16 張量核心 121 兆次浮點運算
BFLOAT16 張量核心 121 兆次浮點運算
FP8 張量核心 242.5 兆次浮點運算
INT8 張量核心 242.5個TOP
GPU內存 24GB GDDR6
GPU內存帶寬 300GB /秒
最大熱設計功率 (TDP) 72W
外形 1 插槽薄型 PCIe
互連線 PCIe Gen4 x16
規格表 L4

當然,由於L4 的定價接近2500 美元,A2 的價格大約是其一半,而老舊(但仍然相當強大)的T4 的使用價格不到1000 美元,顯而易見的問題是這三種推理GPU 之間有什麼區別。

NVIDIA L4、A2 和 T4 規格 英偉達 L4 英偉達 A2 NVIDIA T4
FP 32 30.3 兆次浮點運算 4.5 兆次浮點運算 8.1 兆次浮點運算
TF32 張量核心 60 兆次浮點運算 9 兆次浮點運算 不適用
FP16 張量核心 121 兆次浮點運算 18 兆次浮點運算 不適用
BFLOAT16 張量核心 121 兆次浮點運算 18 兆次浮點運算 不適用
FP8 張量核心 242.5 兆次浮點運算 不適用 不適用
INT8 張量核心 242.5個TOP 36 TOPS 130 TOPS
GPU內存 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU內存帶寬 300GB /秒 200GB /秒 320+ GB/秒
最大熱設計功率 (TDP) 72W 40 60W 70W
外形 1 插槽薄型 PCIe
互連線 PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
規格表 L4 A2 T4

在查看這三張卡片時需要了解的一件事是,它們並不完全是世代一對一的替代品,這解釋了為什麼 T4 在多年後仍然是某些用例的流行選擇。 A2 作為 T4 的替代品問世,是一種低功耗且相容性更強(x8 與 x16 機械)的選項。從技術上講,L4 是 T4 的替代品,而 A2 則介於兩者之間,在未來的某個時候可能會或可能不會更新。

MLPerf 推理 3.1 效能

MLPerf 是一個由學術界、研究界和工業界的人工智慧領導者組成的聯盟,旨在提供公平且相關的人工智慧硬體和軟體基準。這些基準旨在衡量機器學習硬體、軟體和服務在各種任務和場景中的表現。

我們的測試重點在於兩個特定的 MLPerf 基準:Resnet50 和 BERT。

  • Resnet50:這是一個主要用於影像分類的捲積神經網路。它很好地表明了系統處理與影像處理相關的深度學習任務的能力。
  • BERT(來自 Transformers 的雙向編碼器表示):此基準測試重點在於自然語言處理任務,深入了解系統在理解和處理人類語言方面的表現。

這兩項測試對於評估人工智慧硬體在涉及影像和語言處理的現實場景中的能力至關重要。

使用這些基準評估 NVIDIA L4 對於幫助了解 L4 GPU 在特定 AI 任務中的功能至關重要。它還提供了有關不同配置(單、雙和四設定)如何影響效能的見解。這些資訊對於尋求優化人工智慧基礎設施的專業人士和組織至關重要。

這些模型在兩種關鍵模式下運作:伺服器和離線。

  • 離線模式:此模式可測量所有資料可同時處理時的系統效能。它類似於批次處理,系統在單一批次中處理大型資料集。對於延遲不是主要問題但吞吐量和效率才是主要問題的場景來說,離線模式至關重要。
  • 伺服器模式:相較之下,伺服器模式在模擬真實世界伺服器環境的場景中評估系統的效能,其中一次只有一個請求。此模式對延遲敏感,衡量系統回應每個請求的速度。這對於需要立即回應的即時應用程式(例如網頁伺服器或互動式應用程式)至關重要。

1 個 NVIDIA L4 – Dell PowerEdge XR7620

戴爾 XR4 中的 NVIDIA L7620

作為我們最近審查的一部分 戴爾 PowerEdge XR7620,配備了一個 NVIDIA L4,我們將其帶到邊緣運行多個任務,包括 MLPerf。

我們的測試系統配置包括以下組件:

  • 2 個至強金牌 6426Y – 16 核 2.5GHz
  • 1 個 NVIDIA L4
  • 8 個 16GB DDR5
  • 480GB BOSS RAID1
  • Ubuntu服務器22.04
  • NVIDIA 驅動程式 535
戴爾 PowerEdge XR7620 1x NVIDIA L4 總分
Resnet50 – 伺服器 12,204.40
Resnet50 – 離線 13,010.20
BERT K99 – 伺服器 898.945
BERT K99 – 離線 973.435

Resnet50 和 BERT K99 在伺服器和離線場景中的效能幾乎相同,顯示 L4 在不同伺服器型號上保持一致的效能。

1、2 和 4 個 NVIDIA L4 – Dell PowerEdge T560

戴爾 PowerEdge T560 塔式機 - Nvidia L4 GOU x4

我們的審查單位配置包括以下組件:

  • 2 個 Intel Xeon Gold 6448Y(每個 32 核/64 線程,225 瓦 TDP,2.1-4.1GHz)
  • 8 個 1.6TB Solidigm P5520 SSD,附 PERC 12 RAID 卡
  • 1-4 個 NVIDIA L4 GPU
  • 8 個 64GB RDIMM
  • Ubuntu服務器22.04
  • NVIDIA 驅動程式 535
從邊緣回到資料中心並利用 多功能戴爾 T560 塔式機 伺服器方面,我們注意到 L4 在單 GPU 測試中表現同樣好。這顯示兩個平台都可以為L4提供堅實的基礎,沒有瓶頸。
戴爾 PowerEdge T560 1x NVIDIA L4 總分
Resnet50 – 伺服器 12,204.40
Resnet50 – 離線 12,872.10
Bert K99 – 伺服器 898.945
Bert K99 – 離線 945.146

在我們對 Dell T4 中的兩個 L560 進行的測試中,我們觀察到 Resnet50 和 BERT K99 基準測試的效能接近線性擴展。這種擴展證明了 L4 GPU 的效率及其協同工作的能力,而不會因開銷或效率低下而造成重大損失。

戴爾 PowerEdge T560 2x NVIDIA L4 總分
Resnet50 – 伺服器 24,407.50
Resnet50 – 離線 25,463.20
BERT K99 – 伺服器 1,801.28
BERT K99 – 離線 1,904.10

我們在兩個 NVIDIA L4 GPU 上看到的一致線性擴展令人印象深刻地擴展到具有四個 L4 單元的配置。這種擴展尤其值得注意,因為由於平行處理和資源管理的複雜性,每個添加的 GPU 保持線性效能增益變得越來越具有挑戰性。

戴爾 PowerEdge T560 4x NVIDIA L4 總分
Resnet50 – 伺服器 48,818.30
Resnet50 – 離線 51,381.70
BERT K99 – 伺服器 3,604.96
BERT K99 – 離線 3,821.46

這些結果僅供說明之用,並非競爭性或官方 MLPerf 結果。如需完整的官方結果列表,請 造訪 MLPerf 結果頁面.

除了驗證 NVIDIA L4 GPU 的線性可擴展性之外,我們在實驗室中的測試還揭示了在不同操作場景中部署這些單元的實際影響。例如,使用 L4 GPU 的所有配置的伺服器和離線模式之間的效能一致性揭示了它們的可靠性和多功能性。

這對於營運環境差異很大的企業和研究機構尤其重要。此外,我們對互連瓶頸影響最小以及多 GPU 設置中 GPU 同步效率的觀察為那些希望擴展 AI 基礎設施的人提供了寶貴的見解。這些見解超越了單純的基準數據,可以更深入地了解如何在現實場景中最佳地利用此類硬件,從而指導人工智慧和高效能運算基礎設施中更好的架構決策和投資策略。

NVIDIA L4 – 應用程式效能

我們將新款 NVIDIA L4 與先前的 NVIDIA A2 和 NVIDIA T4 的效能進行了比較。為了展示相對於過去型號的性能升級,我們在實驗室的伺服器內部署了所有三個型號,並配備了 Windows Server 2022 和最新的 NVIDIA 驅動程序,並利用了我們的整個 GPU 測試套件。

這些卡片經過測試 戴爾 Poweredge R760 具有以下配置:

  • 2 個英特爾至強金牌 6430(32 核,2.1GHz)
  • 在Windows Server 2022
  • NVIDIA 驅動程式 538.15
  • 所有卡上均禁用 ECC 以進行 1x 採樣

R4 Riser 中的 NVIDIA L760

當我們開始對這組三款企業級 GPU 進行效能測試時,請務必注意早期 A2 和 T4 型號之間獨特的效能差異。當 A2 發佈時,它提供了一些顯著的改進,例如更低的功耗以及在更小的 PCIe Gen4 x8 插槽上運行,而不是舊版 T3 所需的更大的 PCIe Gen16 x4 插槽。它立即允許它插入更多的系統,特別是在需要較小的佔地面積的情況下。

攪拌機 OptiX 4.0

Blender OptiX 是一款開源 3D 建模應用程式。該測試可以針對 CPU 和 GPU 運行,但與這裡的大多數其他測試一樣,我們只進行了 GPU 測試。此基準測試是使用 Blender Benchmark CLI 實用程式運行的。分數是每分鐘的樣本數,越高越好。

攪拌機4.0
(越高越好)
英偉達 L4 英偉達 A2 英偉達T4
GPU Blender CLI – 怪物 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – 課堂 1,111.753 262.387 478.786

Blackmagic RAW 速度測試

我們使用 Blackmagic 的 RAW Speed Test 來測試 CPU 和 GPU,該測試可測試視訊播放速度。這更像是一種混合測試,包括真實世界 RAW 解碼的 CPU 和 GPU 效能。這些結果顯示為單獨的結果,但我們此處僅關注 GPU,因此省略了 CPU 結果。

Blackmagic RAW 速度測試
(越高越好)
英偉達 L4 英偉達 A2 NVIDIA T4
8K 圖形處理器 FPS 95 FPS 38 FPS 53

Cinebench 2024 GPU

Maxon 的 Cinebench 2024 是一個 CPU 和 GPU 渲染基準測試,利用所有 CPU 核心和執行緒。同樣,由於我們關注的是 GPU 結果,因此我們沒有執行測試的 CPU 部分。分數越高越好。

Cinebench 2024
(越高越好)
英偉達 L4 英偉達 A2 NVIDIA T4
GPU 15,263 4,006 5,644

圖形處理器PI

GPUPI 3.3.3 是輕量級基準測試實用程式的一個版本,旨在透過 GPU 和 CPU 使用硬體加速來計算 π (pi) 到數十億位小數。它利用 OpenCL 和 CUDA 的運算能力,其中包括中央處理單元和圖形處理單元。我們只在所有 3 個 GPU 上執行 CUDA,這裡的數字是沒有增加縮減時間的運算時間。越低越好。

GPU PI 運算時間(以秒為單位)
(越低越好)
英偉達 L4 英偉達 A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

雖然先前的結果僅查看了每張卡的一次迭代,但我們還有機會查看 5x NVIDIA L4 部署在 戴爾 PowerEdge T560.

GPU PI 運算時間(以秒為單位)
(越低越好)
Dell PowerEdge T560(2 個 Xeon Gold 6448Y),附 5 個 NVIDIA L4
GPUPI v3.3 – 1B 0秒850毫秒
GPUPI v3.3 – 32B 50秒361毫秒

辛烷值測試台

OctaneBench 是 OctaneRender 的基準測試實用程序,OctaneRender 是另一種支援 RTX 的 3D 渲染器,類似於 V-Ray。

 辛烷值(越高越好)
風景 核心 英偉達 L4 英偉達 A2 NVIDIA T4
室內 資訊頻道 15.59 4.49 6.39
直接照明 50.85 14.32 21.76
路徑追踪 64.02 18.46 25.76
思維 資訊頻道 9.30 2.77 3.93
直接照明 39.34 11.53 16.79
路徑追踪 48.24 14.21 20.32
亞視 資訊頻道 24.38 6.83 9.50
直接照明 54.86 16.05 21.98
路徑追踪 68.98 20.06 27.50
包裝盒 資訊頻道 12.89 3.88 5.42
直接照明 48.80 14.59 21.36
路徑追踪 54.56 16.51 23.85
總得分 491.83 143.71 204.56

Geekbench 6 顯卡

Geekbench 6 是衡量整體系統效能的跨平台基準測試。 CPU 和 GPU 基準測試都有測試選項。分數越高越好。同樣,我們只查看 GPU 結果。

您可以在以下位置找到與任何您想要的系統的比較 Geekbench 瀏覽器.

Geekbench 6.1.0
(越高越好)
英偉達 L4 英偉達 A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

樂士馬克

LuxMark 是開源 3D 渲染引擎 LuxRender 維護者開發的 OpenCL 跨平台基準測試工具。 該工具著眼於 3D 建模、照明和視訊工作中的 GPU 效能。 在本次評測中,我們使用了最新版本 v4alpha0。 在 LuxMark 中,分數越高越好。

Luxmark v4.0alpha0
OpenCL GPU
(越高越好)
英偉達 L4 英偉達 A2 NVIDIA T4
大廳長凳 14,328 3,759 5,893
食物長椅 5,330 1,258 2,033

GROMACS CUDA

我們也源編譯了 GROMACS,這是一款專門針對 CUDA 的分子動力學軟體。此自訂編譯旨在利用 5 個 NVIDIA L4 GPU 的平行處理功能,這對於加速運算模擬至關重要。

這個過程涉及使用 nvcc(NVIDIA 的 CUDA 編譯器)以及適當最佳化標誌的多次迭代,以確保二進位檔案正確調整為伺服器的架構。 GROMACS 編譯中包含 CUDA 支持,使軟體能夠直接與 GPU 硬體連接,從而大大縮短複雜模擬的計算時間。

測試:Gromacs 中的客製化蛋白質相互作用

利用社群提供的來自我們多樣化 Discord 的輸入檔(其中包含為特定蛋白質相互作用研究定制的參數和結構),我們啟動了分子動力學模擬。 結果非常顯著——系統的模擬速度達到了每天 170.268 奈秒。

GPU 系統 奈秒/天 核心時間(秒)
英偉達 A4000 白盒 AMD 銳龍 5950x 84.415 163,763
RTX NVIDIA 4070 白盒 AMD 銳龍 7950x3d 131.85 209,692.3
5x NVIDIA L4 戴爾 T560 帶 2 個英特爾至強金牌 6448Y 170.268 608,912.7

不僅僅是人工智慧

隨著人工智慧的大肆宣傳,人們很容易被 NVIDIA L4 上模型的性能所吸引,但它還有一些其他的技巧,為視訊應用開闢了可能性的領域。它可以託管多達 1,040 個 1p720 並發 AV30 視訊串流。這可以改變內容向邊緣用戶直播的方式,增強創意故事敘述,並呈現沉浸式 AR/VR 體驗的有趣用途。

NVIDIA L4 在優化圖形效能方面也表現出色,這從其實時渲染和光線追蹤功能中可見一斑。在邊緣辦公室中,L4 能夠在 VDI 中為最需要高品質、即時圖形渲染的最終用戶提供強大且強大的加速圖形運算。

關閉的思考

NVIDIA L4 GPU 為邊緣人工智慧和高效能運算提供了堅實的平台,在多種應用程式中提供無與倫比的效率和多功能性。它能夠處理密集型人工智慧、加速或視訊管道並優化圖形性能,使其成為邊緣推理或虛擬桌面加速的理想選擇。 L4 結合了高運算能力、先進的記憶體功能和能源效率,使其成為推動邊緣工作負載加速的關鍵角色,尤其是在人工智慧和圖形密集型行業。

NVIDIA L4 扭曲堆疊

毫無疑問,人工智慧是當今 IT 颶風的中心,對 H100/H200 GPU 的需求持續飆升。但是,也大力推動將一組更強大的 IT 工具包部署到創建和分析資料的邊緣。在這些情況下,需要更合適的 GPU。 NVIDIA L4 在這方面表現出色,應該成為邊緣推理的預設選項,無論是作為單一單元還是像我們在 T560 中測試的那樣一起擴展。

NVIDIA L4 產品頁面

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱