이 리뷰에서는 실제 AI 벤치마킹 통찰력을 통해 여러 서버에 걸쳐 강력하지만 작은 NVIDIA L4 GPU를 살펴봅니다.
오늘날 AI 세계의 끊임없는 혁신 속에서 다양한 하드웨어 플랫폼의 기능을 측정하고 이해하는 것이 중요합니다. 모든 AI에 대규모 훈련 GPU 팜이 필요한 것은 아니지만 AI 추론의 중요한 부분이 있는데, 특히 엣지에서 GPU 성능이 덜 필요한 경우가 많습니다. 이 리뷰에서는 세 가지 Dell 서버와 MLperf를 포함한 다양한 워크로드에서 여러 NVIDIA L4 GPU를 살펴보고 L4가 어떻게 구성되어 있는지 확인합니다.
엔비디아 L4 GPU
핵심적으로 L4는 고정밀 컴퓨팅 작업에 이상적인 FP30.3 성능에서 인상적인 32테라플롭을 제공합니다. 그 탁월함은 딥 러닝 효율성에 중요한 TF32, FP16 및 BFLOAT16 Tensor 코어를 사용한 혼합 정밀도 계산으로 확장됩니다. L4 사양 시트에서는 60~121teraFLOP의 성능을 인용합니다.
정밀도가 낮은 작업에서 L4는 FP242.5 및 INT8 Tensor 코어의 8teraFLOP로 빛을 발하여 신경망 추론을 향상시킵니다. 24GB/s 대역폭으로 보완된 6GB GDDR300 메모리를 통해 대규모 데이터 세트와 복잡한 모델을 처리할 수 있습니다. L4의 에너지 효율성은 여기서 가장 눈에 띄는 점으로, 72W TDP로 다양한 컴퓨팅 환경에 적합합니다. 고성능, 메모리 효율성, 저전력 소비가 결합된 NVIDIA L4는 엣지 컴퓨팅 문제에 대한 강력한 선택입니다.
엔비디아 L4 사양 | |
---|---|
FP 32 | 30.3테라플롭스 |
TF32 텐서 코어 | 60테라플롭스 |
FP16 텐서 코어 | 121테라플롭스 |
BFLOAT16 텐서 코어 | 121테라플롭스 |
FP8 텐서 코어 | 242.5테라플롭스 |
INT8 텐서 코어 | 242.5 TOP |
GPU 메모리 | 24GB GDDR6 |
GPU 메모리 대역폭 | 300GB / s |
최대 열 설계 전력(TDP) | 72W |
폼 팩터 | 1슬롯 로우 프로파일 PCIe |
상호 연결 | PCIe 4세대 x16 |
사양 차트 | L4 |
물론, L4 가격이 2500달러에 가깝고, A2는 대략 절반 가격으로 제공되며, 4달러 미만으로 사용할 수 있는 오래된(아직 꽤 성능이 좋은) T1000를 고려할 때, 분명한 질문은 이 세 가지 추론 GPU의 차이점이 무엇인지입니다.
NVIDIA L4, A2 및 T4 사양 | 엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
---|---|---|---|
FP 32 | 30.3테라플롭스 | 4.5테라플롭스 | 8.1테라플롭스 |
TF32 텐서 코어 | 60테라플롭스 | 9테라플롭스 | N/A |
FP16 텐서 코어 | 121테라플롭스 | 18테라플롭스 | N/A |
BFLOAT16 텐서 코어 | 121테라플롭스 | 18테라플롭스 | N/A |
FP8 텐서 코어 | 242.5테라플롭스 | N/A | N/A |
INT8 텐서 코어 | 242.5 TOP | 36 상단 | 130 상단 |
GPU 메모리 | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
GPU 메모리 대역폭 | 300GB / s | 200GB / s | 320GB/초 이상 |
최대 열 설계 전력(TDP) | 72W | 40 - 60W | 70W |
폼 팩터 | 1슬롯 로우 프로파일 PCIe | ||
상호 연결 | PCIe 4세대 x16 | PCIe 4세대 x8 | PCIe 3세대 x16 |
사양 차트 | L4 | A2 | T4 |
이 세 가지 카드를 볼 때 이해해야 할 한 가지는 정확히 세대별 일대일 교체가 아니라는 점입니다. 이는 T4가 몇 년이 지난 후에도 여전히 일부 사용 사례에서 인기 있는 선택으로 남아 있는 이유를 설명합니다. A2는 저전력 및 호환성이 더 높은(x4 대 x8 기계식) 옵션으로 T16를 대체하기 위해 나왔습니다. 기술적으로 L4는 T4를 대체하며 A2는 미래의 어느 시점에서 새로워질 수도 있고 그렇지 않을 수도 있는 중간에 걸쳐 있습니다.
MLPerf 추론 3.1 성능
MLPerf는 공정하고 관련성 있는 AI 하드웨어 및 소프트웨어 벤치마크를 제공하기 위해 설립된 학계, 연구, 업계의 AI 리더들로 구성된 컨소시엄입니다. 이러한 벤치마크는 다양한 작업 및 시나리오에서 기계 학습 하드웨어, 소프트웨어 및 서비스의 성능을 측정하도록 설계되었습니다.
우리의 테스트는 Resnet50과 BERT라는 두 가지 특정 MLPerf 벤치마크에 중점을 둡니다.
- Resnet50: 주로 이미지 분류에 사용되는 컨볼루션 신경망입니다. 이는 시스템이 이미지 처리와 관련된 딥 러닝 작업을 얼마나 잘 처리할 수 있는지를 나타내는 좋은 지표입니다.
- BERT(BiDirectional Encoder Representations from Transformers): 이 벤치마크는 자연어 처리 작업에 중점을 두고 시스템이 인간 언어를 이해하고 처리하는 방식에 대한 통찰력을 제공합니다.
이 두 테스트는 모두 이미지 및 언어 처리와 관련된 실제 시나리오에서 AI 하드웨어의 기능을 평가하는 데 중요합니다.
이러한 벤치마크를 통해 NVIDIA L4를 평가하는 것은 특정 AI 작업에서 L4 GPU의 기능을 이해하는 데 중요합니다. 또한 다양한 구성(단일, 이중 및 쿼드 설정)이 성능에 어떤 영향을 미치는지에 대한 통찰력을 제공합니다. 이 정보는 AI 인프라를 최적화하려는 전문가와 조직에 필수적입니다.
모델은 서버와 오프라인이라는 두 가지 주요 모드에서 실행됩니다.
- 오프라인 모드: 이 모드는 모든 데이터를 동시에 처리할 수 있을 때 시스템 성능을 측정합니다. 이는 시스템이 단일 배치로 대규모 데이터 세트를 처리하는 배치 처리와 유사합니다. 오프라인 모드는 대기 시간이 주요 관심사는 아니지만 처리량과 효율성이 중요한 시나리오에 매우 중요합니다.
- 서버 모드: 이와 대조적으로 서버 모드는 요청이 한 번에 하나씩 들어오는 실제 서버 환경을 모방한 시나리오에서 시스템 성능을 평가합니다. 이 모드는 대기 시간에 민감하며 시스템이 각 요청에 얼마나 빨리 응답할 수 있는지 측정합니다. 즉각적인 응답이 필요한 웹 서버나 대화형 애플리케이션과 같은 실시간 애플리케이션에 필수적입니다.
1 x NVIDIA L4 – Dell PowerEdge XR7620
최근 검토의 일환으로 델 파워에지 XR7620, 단일 NVIDIA L4를 장착하여 MLPerf를 포함한 여러 작업을 실행하기 위해 이를 엣지로 가져갔습니다.
테스트 시스템 구성에는 다음 구성 요소가 포함되었습니다.
- 2 x Xeon Gold 6426Y - 16코어 2.5GHz
- 엔비디아 L1 4개
- 8GB DDR16 5개
- 480GB 보스 RAID1
- 우분투 서버 22.04
- 엔비디아 드라이버 535
Dell PowerEdge XR7620 1x NVIDIA L4 | 점수 |
---|---|
Resnet50 – 서버 | 12,204.40 |
Resnet50 – 오프라인 | 13,010.20 |
BERT K99 – 서버 | 898.945 |
BERT K99 – 오프라인 | 973.435 |
Resnet50 및 BERT K99의 서버 및 오프라인 시나리오 성능은 거의 동일하며, 이는 L4가 다양한 서버 모델에서 일관된 성능을 유지함을 나타냅니다.
1, 2, 4 NVIDIA L4 – Dell PowerEdge T560
검토 장치 구성에는 다음 구성 요소가 포함되었습니다.
- 2 x Intel Xeon Gold 6448Y(각각 32코어/64스레드, 225와트 TDP, 2.1~4.1GHz)
- 8TB Solidigm P1.6 SSD 5520개(PERC 12 RAID 카드 포함)
- 1-4x NVIDIA L4 GPU
- 8GB RDIMM 64개
- 우분투 서버 22.04
- 엔비디아 드라이버 535
Dell PowerEdge T560 1x NVIDIA L4 | 점수 |
---|---|
Resnet50 – 서버 | 12,204.40 |
Resnet50 – 오프라인 | 12,872.10 |
버트 K99 – 서버 | 898.945 |
버트 K99 – 오프라인 | 945.146 |
Dell T4의 L560 50개를 사용한 테스트에서 Resnet99 및 BERT K4 벤치마크 모두에서 거의 선형에 가까운 성능 확장을 관찰했습니다. 이러한 확장은 LXNUMX GPU의 효율성과 오버헤드나 비효율성으로 인한 큰 손실 없이 동시에 작업할 수 있는 능력을 입증합니다.
Dell PowerEdge T560 2x NVIDIA L4 | 점수 |
---|---|
Resnet50 – 서버 | 24,407.50 |
Resnet50 – 오프라인 | 25,463.20 |
BERT K99 – 서버 | 1,801.28 |
BERT K99 – 오프라인 | 1,904.10 |
4개의 NVIDIA L4 GPU에서 목격한 일관된 선형 확장은 XNUMX개의 LXNUMX 장치를 갖춘 구성으로 인상적으로 확장됩니다. 병렬 처리 및 리소스 관리의 복잡성으로 인해 GPU를 추가할 때마다 선형 성능 향상을 유지하는 것이 점점 더 어려워지기 때문에 이러한 확장은 특히 주목할 만합니다.
Dell PowerEdge T560 4x NVIDIA L4 | 점수 |
---|---|
Resnet50 – 서버 | 48,818.30 |
Resnet50 – 오프라인 | 51,381.70 |
BERT K99 – 서버 | 3,604.96 |
BERT K99 – 오프라인 | 3,821.46 |
이러한 결과는 설명 목적으로만 제공되며 경쟁 또는 공식 MLPerf 결과가 아닙니다. 전체 공식 결과 목록을 보려면 MLPerf 결과 페이지를 방문하세요..
NVIDIA L4 GPU의 선형 확장성을 검증하는 것 외에도 실험실에서의 테스트는 다양한 운영 시나리오에서 이러한 장치를 배포하는 데 따른 실질적인 의미를 밝혀줍니다. 예를 들어, L4 GPU를 사용하는 모든 구성에서 서버와 오프라인 모드 간의 성능 일관성은 안정성과 다양성을 드러냅니다.
이러한 측면은 특히 운영 상황이 크게 달라지는 기업 및 연구 기관과 관련이 있습니다. 또한 상호 연결 병목 현상의 최소 영향과 다중 GPU 설정에서 GPU 동기화 효율성에 대한 우리의 관찰은 AI 인프라를 확장하려는 사람들에게 귀중한 통찰력을 제공합니다. 이러한 통찰력은 단순한 벤치마크 수치를 넘어 이러한 하드웨어가 실제 시나리오에서 어떻게 최적으로 활용될 수 있는지에 대한 더 깊은 이해를 제공하고 AI 및 HPC 인프라에 대한 더 나은 아키텍처 결정과 투자 전략을 안내합니다.
NVIDIA L4 – 애플리케이션 성능
우리는 새로운 NVIDIA L4의 성능을 이전 버전의 NVIDIA A2 및 NVIDIA T4와 비교했습니다. 이전 모델에 비해 이러한 성능 업그레이드를 보여주기 위해 우리는 전체 GPU 테스트 제품군을 활용하여 Windows Server 2022 및 최신 NVIDIA 드라이버와 함께 연구실의 서버 내에 세 가지 모델을 모두 배포했습니다.
이 카드는 다음에서 테스트되었습니다. 델 파워에지 R760 다음 구성으로:
- 2 x Intel Xeon Gold 6430(32코어, 2.1GHz)
- 윈도우 서버 2022
- 엔비디아 드라이버 538.15
- 1x 샘플링을 위해 모든 카드에서 ECC 비활성화됨
이 세 가지 엔터프라이즈 GPU 그룹 간의 성능 테스트를 시작하면서 이전 A2와 T4 모델 간의 고유한 성능 차이를 주목하는 것이 중요합니다. A2가 출시되었을 때 이전 T4에 필요한 더 큰 PCIe Gen8 x3 슬롯 대신 더 낮은 전력 소비 및 더 작은 PCIe Gen16 x4 슬롯에서 작동하는 등 몇 가지 눈에 띄는 개선 사항을 제공했습니다. 특히 더 작은 공간이 필요한 경우 더 많은 시스템에 슬롯을 추가할 수 있었습니다.
블렌더 OptiX 4.0
Blender OptiX는 오픈 소스 3D 모델링 애플리케이션입니다. 이 테스트는 CPU와 GPU 모두에 대해 실행할 수 있지만 여기서는 대부분의 다른 테스트와 마찬가지로 GPU만 수행했습니다. 이 벤치마크는 Blender Benchmark CLI 유틸리티를 사용하여 실행되었습니다. 점수는 분당 샘플 수이며, 높을수록 좋습니다.
블렌더 4.0 (높을수록 좋습니다) |
엔비디아 L4 | 엔비디아 A2 | 엔비디아 T4 |
---|---|---|---|
GPU 블렌더 CLI - 몬스터 | 2,207.765 | 458.692 | 850.076 |
GPU 블렌더 CLI - 정크샵 | 1,127.829 | 292.553 | 517.243 |
GPU 블렌더 CLI – 강의실 | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW 속도 테스트
비디오 재생 속도를 테스트하는 Blackmagic의 RAW Speed Test로 CPU와 GPU를 테스트합니다. 이는 실제 RAW 디코딩을 위한 CPU 및 GPU 성능을 포함하는 하이브리드 테스트에 가깝습니다. 이는 별도의 결과로 표시되지만 여기서는 GPU에만 중점을 두므로 CPU 결과는 생략됩니다.
Blackmagic RAW 속도 테스트 (높을수록 좋습니다) |
엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
---|---|---|---|
8K 쿠다 | 95의 FPS | 38의 FPS | 53의 FPS |
시네벤치 2024 GPU
Maxon의 Cinebench 2024는 모든 CPU 코어와 스레드를 활용하는 CPU 및 GPU 렌더링 벤치마크입니다. 이번에도 GPU 결과에 초점을 맞추고 있으므로 테스트의 CPU 부분은 실행하지 않았습니다. 점수가 높을수록 좋습니다.
Cinebench 2024 (높을수록 좋습니다) |
엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
---|---|---|---|
GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3은 GPU 및 CPU를 통한 하드웨어 가속을 사용하여 소수점 이하 수십억 자리까지 π(pi)를 계산하도록 설계된 경량 벤치마킹 유틸리티 버전입니다. 이는 중앙 처리 장치와 그래픽 처리 장치를 모두 포함하는 OpenCL 및 CUDA의 컴퓨팅 성능을 활용합니다. 3개의 GPU 모두에서만 CUDA를 실행했으며 여기에 표시된 숫자는 감소 시간을 추가하지 않은 계산 시간입니다. 낮을수록 좋습니다.
GPU PI 계산 시간(초) (낮을수록 좋음) |
엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
---|---|---|---|
GPUPI v3.3 – 1B | 3.732s | 19.799s | 7.504s |
GPUPI v3.3 – 32B | 244.380s | 1,210.801s | 486.231s |
이전 결과에서는 각 카드의 단일 반복만 살펴봤지만, 우리는 내부에 5x NVIDIA L4 배포를 살펴볼 기회도 있었습니다. 델 파워에지 T560.
GPU PI 계산 시간(초) (낮을수록 좋음) |
Dell PowerEdge T560(2x Xeon Gold 6448Y)(5x NVIDIA L4 포함) |
---|---|
GPUPI v3.3 – 1B | 0초 850ms |
GPUPI v3.3 – 32B | 50초 361ms |
옥탄벤치
OctaneBench는 V-Ray와 유사한 RTX를 지원하는 또 다른 3D 렌더러인 OctaneRender용 벤치마킹 유틸리티입니다.
옥탄(높을수록 좋음) | ||||
장면 | 핵심 | 엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
내부 | 정보 채널 | 15.59 | 4.49 | 6.39 |
직접 조명 | 50.85 | 14.32 | 21.76 | |
경로 추적 | 64.02 | 18.46 | 25.76 | |
생각 | 정보 채널 | 9.30 | 2.77 | 3.93 |
직접 조명 | 39.34 | 11.53 | 16.79 | |
경로 추적 | 48.24 | 14.21 | 20.32 | |
ATV | 정보 채널 | 24.38 | 6.83 | 9.50 |
직접 조명 | 54.86 | 16.05 | 21.98 | |
경로 추적 | 68.98 | 20.06 | 27.50 | |
보물상자 | 정보 채널 | 12.89 | 3.88 | 5.42 |
직접 조명 | 48.80 | 14.59 | 21.36 | |
경로 추적 | 54.56 | 16.51 | 23.85 | |
총 점수 | 491.83 | 143.71 | 204.56 |
긱벤치 6 GPU
Geekbench 6 전반적인 시스템 성능을 측정하는 크로스 플랫폼 벤치마크입니다. CPU 및 GPU 벤치마킹에 대한 테스트 옵션이 있습니다. 점수가 높을수록 좋습니다. 이번에도 GPU 결과만 살펴봤습니다.
다음에서 원하는 시스템과의 비교를 찾을 수 있습니다. 긱벤치 브라우저.
Geekbench 6.1.0 (높을수록 좋습니다) |
엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
---|---|---|---|
긱벤치 GPU OpenCL | 156,224 | 35,835 | 83,046 |
럭스마크
LuxMark는 오픈 소스 3D 렌더링 엔진 LuxRender를 유지 관리하는 사람들이 만든 OpenCL 크로스 플랫폼 벤치마킹 도구입니다. 이 도구는 3D 모델링, 조명 및 비디오 작업에서 GPU 성능을 살펴봅니다. 이번 검토에서는 최신 버전인 v4alpha0을 사용했습니다. LuxMark에서는 점수가 높을수록 좋습니다.
Luxmark v4.0alpha0 OpenCL GPU (높을수록 좋습니다) |
엔비디아 L4 | 엔비디아 A2 | NVIDIA T4 |
---|---|---|---|
홀 벤치 | 14,328 | 3,759 | 5,893 |
푸드벤치 | 5,330 | 1,258 | 2,033 |
그로맥스 쿠다
우리는 또한 CUDA용으로 특별히 제작된 분자 역학 소프트웨어인 컴파일된 GROMACS를 소스로 제공합니다. 이 맞춤형 편집은 컴퓨팅 시뮬레이션 가속화에 필수적인 5개의 NVIDIA L4 GPU의 병렬 처리 기능을 활용하는 것이었습니다.
이 프로세스에는 NVIDIA의 CUDA 컴파일러인 nvcc의 활용과 함께 바이너리가 서버의 아키텍처에 적절하게 조정되었는지 확인하기 위한 적절한 최적화 플래그의 여러 반복이 포함되었습니다. GROMACS 컴파일에 CUDA 지원이 포함되면 소프트웨어가 GPU 하드웨어와 직접 인터페이스할 수 있어 복잡한 시뮬레이션의 계산 시간이 크게 향상될 수 있습니다.
테스트: Gromacs의 맞춤형 단백질 상호작용
특정 단백질 상호 작용 연구에 맞춰진 매개변수와 구조가 포함된 다양한 Discord의 커뮤니티 제공 입력 파일을 활용하여 분자 역학 시뮬레이션을 시작했습니다. 결과는 놀라웠습니다. 시스템은 하루 170.268나노초의 시뮬레이션 속도를 달성했습니다.
GPU | 시스템 | ns/일 | 코어 시간(들) |
---|---|---|---|
엔비디아 A4000 | 화이트박스 AMD Ryzen 5950x | 84.415 | 163,763 |
RTX 엔비디아 4070 | 화이트박스 AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
5x 엔비디아 L4 | Dell T560(2x Intel Xeon Gold 6448Y 포함) | 170.268 | 608,912.7 |
AI 그 이상
AI에 대한 과대광고가 대세를 이루면서 NVIDIA L4 모델의 성능에 푹 빠져들기 쉽지만, 여기에는 비디오 애플리케이션에 대한 가능성의 영역을 열어주는 몇 가지 다른 트릭도 있습니다. 1,040p1에서 최대 720개의 동시 AV30 비디오 스트림을 호스팅할 수 있습니다. 이를 통해 콘텐츠를 엣지 사용자에게 라이브로 스트리밍하는 방식을 변화시키고, 창의적인 스토리텔링을 강화하며, 몰입형 AR/VR 경험에 대한 흥미로운 용도를 제시할 수 있습니다.
NVIDIA L4는 실시간 렌더링 및 광선 추적 기능에서 분명하게 드러나는 그래픽 성능 최적화에도 뛰어납니다. 엣지 오피스에서 L4는 고품질 실시간 그래픽 렌더링이 필수적인 최종 사용자에게 VDI의 강력하고 강력한 가속 그래픽 계산을 제공할 수 있습니다.
생각을 폐쇄
NVIDIA L4 GPU는 엣지 AI 및 고성능 컴퓨팅을 위한 견고한 플랫폼을 제공하여 여러 애플리케이션에서 비교할 수 없는 효율성과 다양성을 제공합니다. 집약적인 AI, 가속 또는 비디오 파이프라인을 처리하고 그래픽 성능을 최적화하는 기능은 에지 추론 또는 가상 데스크톱 가속을 위한 이상적인 선택입니다. L4는 높은 컴퓨팅 성능, 고급 메모리 기능 및 에너지 효율성을 결합하여 특히 AI 및 그래픽 집약적 산업에서 엣지에서 워크로드 가속화를 촉진하는 핵심 플레이어로 자리매김하고 있습니다.
AI가 요즘 IT 허리케인의 눈이라는 데에는 의심의 여지가 없으며 괴물 H100/H200 GPU에 대한 수요가 계속해서 급증하고 있습니다. 그러나 데이터가 생성되고 분석되는 엣지에 더욱 강력한 IT 키트 세트를 제공하려는 노력도 있습니다. 이러한 경우에는 보다 적절한 GPU가 필요합니다. 여기서 NVIDIA L4는 탁월하며 T560에서 테스트한 것처럼 단일 장치로 또는 함께 확장하여 에지 추론을 위한 기본 옵션이어야 합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드