Supermicro AS-4125GS-TNRT는 4개의 AMD EPYC 9004 시리즈 CPU, PCIe Gen5 및 8개의 이중 폭 GPU를 지원하는 XNUMXU 공냉식 GPU 서버입니다.
Supermicro는 오랫동안 이 리뷰에서 논의할 시간보다 더 많은 모양과 크기의 GPU 서버를 제공해 왔습니다. 오늘 우리는 4개의 AMD EPYC 9004 시리즈 CPU, PCIe Gen5 및 12개의 이중 너비 또는 4125개의 단일 너비 추가 GPU 카드를 지원하는 상대적으로 새로운 100U 공랭식 GPU 서버를 살펴보겠습니다. Supermicro는 이러한 서버의 Intel 기반 변형도 제공하지만 AMD 기반 AS-210GS-TNRT 제품군은 NVIDIA HXNUMX 및 AMD Instinct MiXNUMX GPU를 지원하는 이 클래스의 유일한 서버입니다.
Supermicro AS-4125GS-TNRT GPU 서버에는 온보드 10GbE 네트워킹, 대역 외 관리, FHFL PCIe Gen9 슬롯 5개, 24인치 베이 2.5개(4개는 NVMe, 나머지는 SATA/SAS)와 같은 몇 가지 다른 하드웨어 특징이 있습니다. 또한 2000개의 중복 티타늄 레벨 2W 전원 공급 장치도 있습니다. 마더보드에는 부팅용 M.XNUMX NVMe 슬롯이 하나 있습니다.
이 길을 너무 멀리 진행하기 전에 Supermicro가 AS-4125GS-TNRT 서버 구성의 두 가지 다른 변형을 제공한다는 점도 언급할 가치가 있습니다. 동일한 마더보드를 사용하지만 AS-4125GS-TNRT1은 최대 10개의 이중 폭 GPU와 8개의 NVMe SSD 베이를 지원하는 PCIe 스위치가 포함된 단일 소켓 구성입니다. AS -4125GS-TNRT2는 PCIe 스위치와 거의 동일한 듀얼 프로세서 구성입니다.
구성에 관계없이 Supermicro AS-4125GS-TNRT는 디자인과 PCIe 스위치가 있는 모델을 선택할 수 있는 기능 덕분에 놀라울 정도로 유연합니다. 이 스타일의 GPU 서버는 조직이 소규모로 시작하여 다양한 요구 사항에 맞게 GPU를 확장, 혼합 및 일치시키거나 원하는 모든 작업을 수행할 수 있게 해주기 때문에 널리 사용됩니다. 소켓형 GPU 시스템은 대규모 AI 워크로드를 위해 GPU를 더 잘 통합하는 기능을 제공하지만 워크로드 유연성 측면에서는 추가 카드 시스템을 이길 수 없습니다.
SC4125의 AMD 및 NVIDIA GPU를 탑재한 Supermicro AS-23GS-TNRT
또한 이것이 어떤 사람들에게는 신성 모독으로 보일 수 있지만 Supermicro 추가 카드 GPU 서버는 동일한 상자에서 AMD 및 NVIDIA 카드와 함께 사용할 수도 있습니다! Gasp, 하지만 많은 고객이 일부 워크로드는 Instinct를 선호하는 반면 NVIDIA GPU와 같은 다른 워크로드는 선호한다는 사실을 알고 있습니다. 마지막으로, 아가미에 채워진 GPU 서버보다 덜 인기가 있지만 이 슬롯은 단지 PCIe 슬롯일 뿐이라는 점은 언급할 가치가 있습니다. 고객이 이 장비에서 FPGA, DPU 또는 다른 형태의 가속기를 선호하는 시나리오를 상상하는 것은 무리가 아닙니다. 다시 한번 말씀드리지만, 유연성은 이 디자인의 핵심적인 이점입니다.
검토 목적을 위해 Supermicro AS-4125GS-TNRT는 CPU, DRAM, 스토리지는 물론 GPU를 추가할 수 있는 베어본으로 제공되었습니다. 우리는 이 리뷰를 위해 Supermicro와 협력하여 4x NVIDIA H100 GPU를 빌렸습니다.
슈퍼마이크로 AS-4125GS-TNRT 사양
제품 사양 | |
CPU | 각각 최대 5C/128T의 듀얼 소켓 SP256 CPU |
메모리 | 최대 24개의 256GB 4800MHz ECC DDR5 RDIMM/LRDIMM (총 6TB 메모리) |
GPU |
|
확장 슬롯 | 9x PCIE 5.0 x16 FHFL 슬롯 |
Power Supplies | 4x 2000W 예비 전원 공급 장치 |
네트워킹 | 2GbE 10개 |
스토리지 |
|
마더 보드 | 슈퍼 H13DSG-O-CPU |
|
|
보안 |
|
섀시 크기 | 4U |
Supermicro AS-4125GS-TNRT 검토 구성
우리는 Supermicro의 시스템을 베어본으로 구성했지만 대부분은 구성된 시스템으로 판매했습니다. 실험실에 도착했을 때 우리가 가장 먼저 한 일은 한 쌍의 AMD EPYC 9374F 32c 64t CPU로 채우는 것이었습니다. 이는 높은 클럭 속도와 뛰어난 멀티 코어 성능을 위해 선택되었습니다.
가속기의 경우 기존 Intel Phi 보조 프로세서부터 최신 H100 PCIe 카드, 고급 RTX 6000 ada 워크스테이션 GPU에 이르기까지 선택할 수 있는 선반이 상당히 많았습니다. 우리는 원시 컴퓨팅 성능과 효율성 및 다양성의 균형을 맞추는 것을 목표로 했습니다. 궁극적으로 우리는 초기 테스트를 위해 6000개의 NVIDIA RTX A100 GPU로 시작한 다음 XNUMX개의 NVIDIA HXNUMX PCIe 카드로 이동하기로 결정했습니다. 이 조합은 Supermicro 플랫폼의 유연성과 NVIDIA 가속기 카드를 보여줍니다.
주로 그래픽 집약적인 워크로드의 성능을 위해 설계된 RTX A6000은 Ampere 아키텍처를 통해 AI 및 HPC 애플리케이션에서도 탁월합니다. 48GB의 GDDR6 메모리를 제공하므로 대규모 데이터 세트와 복잡한 시뮬레이션을 처리하는 데 이상적입니다. 10,752개의 CUDA 및 336개의 Tensor 코어는 가속화된 컴퓨팅을 가능하게 하며 이는 AI 및 딥 러닝 테스트에 매우 중요합니다.
반면, NVIDIA H100 PCIe 카드는 주로 AI 워크로드용으로 설계된 Hopper 아키텍처 라인업의 최신 출시 카드입니다. 각 카드에는 인상적인 80억 개의 트랜지스터, 80GB의 HBM3 메모리, GPT-4와 같은 AI 모델에 맞춰진 획기적인 Transformer Engine이 탑재되어 있습니다. H100의 4세대 Tensor 코어 및 DPX 명령은 AI 추론 및 훈련 작업을 크게 향상시킵니다.
이러한 GPU를 Supermicro 베어본 시스템에 통합하여 이러한 고급 구성 요소의 상당한 전력 소비 및 열 발생을 고려하여 최적의 열 관리 및 전력 분배를 보장하는 데 중점을 두었습니다. Supermicro 섀시는 공식적으로 이러한 구성을 지원하지는 않지만 우리의 설정을 수용할 수 있을 만큼 다재다능한 것으로 입증되었습니다. A6000의 발열을 억제하기 위해 농형 팬 설계로 인해 카드 너비만큼 공간을 확보해야 했지만 H100은 패스스루 패시브 냉각 핀으로 포장할 수 있습니다.
우리의 벤치마킹 제품군에는 HPC 및 AI 관련 사용 사례가 혼합되어 포함되었습니다. 여기에는 전통적인 벤치마킹 워크로드부터 컨벌루션 신경망 모델을 사용한 AI 교육 및 추론 작업까지 다양했습니다. 우리는 이러한 가속기를 한계까지 끌어올리고 그 성능과 효율성, 확장성 및 Supermicro A+ 서버와의 통합 용이성을 평가하는 것을 목표로 했습니다.
슈퍼마이크로 AS-4125GS-TNRT GPU 테스트
연구실에서 CNN 기반 모델을 작업하는 동안 NVIDIA의 주력 GPU를 살펴보면서 우리는 오래되었지만 성능이 뛰어난 한 쌍의 워크스테이션 수준 교육으로 시작했습니다. RTX8000 GPU.
AI 성능 분석 중에 우리는 NVIDIA RTX 8000에서 6000개의 RTX A100 GPU, 그리고 마지막으로 XNUMX개의 NVIDIA HXNUMX PCIe 카드로 이동하면서 놀랍지만 예상되는 기능 발전을 관찰했습니다. 이러한 발전은 AI 워크로드에 점점 더 초점이 맞춰지면서 지난 몇 년간 이러한 가속기의 강력한 성능과 NVIDIA 가속기의 진화를 보여주었습니다.
RTX 8000부터 우리는 괜찮은 성능 수준을 확인했습니다. 이 설정을 사용하면 6.36GB 이미지 데이터 세트에 대한 AI 모델 교육에 에포크당 약 45분이 걸렸습니다. 그러나 배치 크기와 처리할 수 있는 작업의 복잡성 측면에서 RTX 8000의 한계는 분명했습니다. 우리는 더 작은 배치 크기로 제한되었고 효과적으로 훈련할 수 있는 신경망 모델의 복잡성도 제한되었습니다.
6000개의 RTX A6000 GPU로의 전환은 성능 면에서 상당한 도약을 가져왔습니다. A6의 뛰어난 메모리 대역폭과 더 큰 GDDRXNUMX 메모리 덕분에 동일한 에포크 기간과 모델 복잡성을 유지하면서 배치 크기를 XNUMX배로 늘릴 수 있었습니다. 이러한 개선으로 훈련 프로세스가 개선되었고 훈련 시간을 연장하지 않고도 보다 정교한 모델을 실험할 수 있게 되었습니다.
그러나 가장 눈에 띄는 발전은 100개의 NVIDIA H100 PCIe 카드가 도입되면서 이루어졌습니다. Hopper 아키텍처의 향상된 AI 기능을 활용하여 이 카드를 사용하면 배치 크기를 다시 두 배로 늘릴 수 있었습니다. 더욱 인상적인 점은 에포크 기간을 눈에 띄게 변경하지 않고도 AI 모델의 복잡성을 크게 높일 수 있다는 것입니다. 이 기능은 복잡한 AI 작업을 효율적으로 처리하는 데 최적화된 Transformer Engine 및 4세대 Tensor Core와 같은 HXNUMX의 고급 AI 관련 기능을 입증합니다.
이러한 테스트 전반에 걸쳐 6.36GB 이미지 데이터세트와 모델 매개변수가 일관된 벤치마크 역할을 하여 다양한 GPU 구성의 성능을 직접 비교할 수 있었습니다. RTX 8000에서 A6000, 그리고 H100으로의 발전은 원시 처리 능력의 향상과 속도나 효율성을 저하시키지 않고 더 크고 복잡한 AI 워크로드를 처리할 수 있는 GPU의 능력을 강조했습니다. 따라서 이러한 GPU는 특히 최첨단 AI 연구 및 대규모 딥 러닝 애플리케이션에 적합합니다.
테스트에 사용된 Supermicro 서버는 PCIe 스위치가 필요하지 않고 CPU에 대한 직접 PCIe 연결 기능을 갖추고 있습니다. 이러한 직접 연결은 각 GPU가 CPU에 대한 전용 경로를 갖도록 보장하여 빠르고 효율적인 데이터 전송을 촉진합니다. 이 아키텍처는 대기 시간을 최소화하고 대역폭 활용도를 최대화하기 위해 AI 및 HPC의 일부 워크로드에서 매우 중요하며, 모든 작업이 서버에 로컬로 수행되는 경우 AI 모델 교육이나 복잡한 VDI 환경과 같은 처리량이 높은 작업을 처리할 때 특히 유용합니다.
결론
Supermicro GPU A+ 서버 AS-4125GS-TNRT 서버의 확장성과 유연성은 여기서 킬러 기능입니다. 이는 AI, VDI 또는 기타 고성능 작업 등 진화하는 워크로드 요구 사항에 적응해야 하는 고객에게 특히 유용합니다. 적당한 구성으로 시작하면 사용자는 엔트리 레벨 AI 또는 VDI 작업을 효과적으로 처리할 수 있으며, 소규모 워크로드나 AI 및 가상 데스크탑 인프라를 이제 막 시작하는 워크로드를 위한 비용 효율적인 솔루션을 제공합니다. 이 초기 설정은 견고하고 확장 가능한 기반을 제공하므로 사용자는 기본적이면서도 필수적인 AI 및 VDI 애플리케이션을 사용할 수 있습니다.
또한 많은 기업이 소켓형 H100 GPU를 활용하기를 원한다는 것을 알고 있지만 이러한 플랫폼에 대한 대기 시간은 과도합니다. 많은 소스에서 대기 시간이 거의 40년에 달한다고 들었습니다. 공급망 물류는 이 서버의 장점을 강조합니다. 즉, 모든 것을 처리할 수 있다는 점입니다. L4125S GPU는 "지금" 사용할 수 있으므로 고객은 최소한 이 콤보와 함께 AI 워크로드를 더 빨리 이동할 수 있습니다. 그리고 요구 사항이 변경되면 고객은 쉽게 카드를 교체할 수 있습니다. 이는 슈퍼마이크로 GPU A+ 서버 AS-XNUMXGS-TNRT 서버가 즉각적인 요구를 충족할 뿐만 아니라 진화하는 기술 환경에 맞춰 미래에도 사용할 수 있음을 보장합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드