홈페이지 Enterprise Supermicro X13 SuperBlade 리뷰: 다용도 AI 어플라이언스

Supermicro X13 SuperBlade 리뷰: 다용도 AI 어플라이언스

by 조던 라누스

Supermicro X13 SuperBlade 섀시와 GPU 블레이드는 특히 중간 규모의 AI 작업에 적응성이 뛰어나고 강력한 선택입니다.

Supermicro는 블레이드 서버 기술의 선구자였으며 SuperBlade 시스템은 이를 입증하는 역할을 합니다. Supermicro X13 SuperBlade 섀시와 블레이드의 출시로 GPU 지원 블레이드 기술과 최신 Emerald Rapids CPU 및 NVIDIA H100 GPU 통합 기술의 새로운 장을 열었습니다. 이러한 발전으로 인해 뛰어난 처리 능력과 효율성이 제공되어 X13은 다양한 고급 애플리케이션에 이상적인 후보가 되었습니다.

슈퍼마이크로 X13 슈퍼블레이드 섀시

디자인 및 사양

Supermicro X13 SuperBlade 섀시는 고밀도와 유연성으로 유명한 친숙한 8U 섀시 디자인을 유지합니다. 각 섀시는 최대 20개의 블레이드를 지원하며 최신 제품은 Emerald Rapids CPU와 NVIDIA H100 GPU를 통합하여 크게 향상되었습니다. 이 강력한 조합은 전례 없는 컴퓨팅 기능을 제공할 것을 약속합니다. 또한 섀시에는 200G InfiniBand 및 25G 이더넷 통신이 있어 고속 데이터 전송과 네트워킹 효율성을 보장합니다.

인기 있는 사용 사례:

  1. 데이터 분석: Emerald Rapids CPU의 고급 처리 능력과 NVIDIA H100 GPU의 가속화된 컴퓨팅 기능을 갖춘 X13 SuperBlade는 까다로운 데이터 분석 작업에 매우 적합합니다. 이러한 작업에는 실시간 데이터 처리 및 광범위한 데이터 마이닝 작업이 포함되며, 이는 오늘날의 데이터 중심 세계에서 점점 더 중요해지고 있습니다.
  2. 인공 지능과 기계 학습: X13 SuperBlade는 AI 및 기계 학습 모델, 특히 상당한 컴퓨팅 리소스가 필요한 딥 러닝 알고리즘에 필요한 성능을 제공합니다.
  3. 고성능 컴퓨팅: X13의 향상된 성능은 과학적 시뮬레이션, 의학 연구 및 엔지니어링 분야의 고급 계산 작업에서 큰 이점을 제공하므로 고성능 컴퓨팅 애플리케이션을 위한 최고의 선택입니다.
  4. 생명과학 혁신을 위한: 블레이드의 밀도와 성능이 향상되어 클라우드 서비스 제공업체에 이상적입니다. 집중적인 가상화 및 컨테이너화가 필요한 애플리케이션과 서비스를 포함하여 다양한 클라우드 기반 애플리케이션과 서비스를 처리할 수 있습니다.
  5. 네트워킹 및 커뮤니케이션: 200G InfiniBand 및 25G 이더넷 통신을 갖춘 X13은 고대역폭, 저지연 애플리케이션에 탁월하여 까다로운 네트워킹 및 통신 작업에 적합합니다. 외부 네트워킹 덕분에 SuperBlade는 허브 역할을 하여 동일한 랙이나 데이터 센터에 있는 기존의 비블레이드 서버와 InfiniBand 및 이더넷 통신을 제공할 수 있습니다.

Supermicro가 제공한 테스트 장비에는 총 100개의 블레이드가 있었습니다. XNUMX개에는 단일 프로세서와 PCIe 가속기를 사용할 수 있는 용량이 장착되었으며, 우리의 경우에는 NVIDIA HXNUMX XNUMX개와 듀얼 프로세서 블레이드 XNUMX개가 장착되었습니다. 우리는 컴퓨팅 블레이드에 대한 후속 검토를 진행할 예정이며, 이 검토 기간으로 인해 포함이 다소 과도해졌습니다.

Supermicro X13 SuperBlade 데이터 시트

구성 요소 상품 설명
Enclosure 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
부채 2x PWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
IB 스위치 1x SBM-IBS-H4020
EN 스위치 2x SBM-25G-200
블레이드 구성
  • SBI-411E-5G:
    • 1x CPU 8562Y+
    • 8x MEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7(삼성 3840G M.2 드라이브)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G: [위와 동일]
  • SBI-411E-5G: [위와 동일, Micron 480G M.2 드라이브 포함]
  • SBI-411E-5G: [위와 동일, Micron 480G M.2 드라이브 포함]
  • SBI-421E-5T3N:
    • 2x 8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC(Micron 480G M.2 드라이브)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ(Micron 3840G U.2 드라이브)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

Supermicro X13 GPU 슈퍼블레이드

GPU 블레이드는 GPU 대신에 2.5인치 NVMe 베이를 갖춘 듀얼 프로세서 블레이드와 함께 전면에 흡입구가 있어 얼핏 보면 그 성능이 믿겨지지 않습니다.

Supermicro X13 SuperBlade GPU 및 컴퓨팅 블레이드

뒷면에는 블레이드를 섀시에 연결하는 눈부신 수의 핀이 있어 모든 전력과 데이터를 전달합니다.

내부를 살펴보면 GPU 블레이드에 m.2 부팅 SSD가 있습니다.

위에서 우리는 에어 배플링 가이드를 볼 수 있습니다. GPU 블레이드와 듀얼 CPU 블레이드의 차이점을 확인하세요. GPU 블레이드 마더보드는 듀얼 CPU와 동일하지만 후면 I/O 절반만 다릅니다.

앞쪽에서 다양한 구현을 볼 수 있습니다. GPU 블레이드에는 PCIe 라이저가 있고, CPU 블레이드에는 U.2 PCIe 라이저가 있으며 PCIe 슬롯에 다양한 구성 요소를 수용할 수 있습니다. 섀시는 먼저 신선한 공기를 GPU로 끌어들여 패시브 GPU의 최적 냉각을 위해 설계되었습니다.

계속해서 섀시 후면부터 PSU와 네트워크 연결을 볼 수 있습니다. 상단 전체 폭 스위치는 200Gbit NVIDIA Quantum InfiniBand용입니다. 아래쪽 스위치 25개 중 큰 것이 XNUMXG 이더넷이고, 중앙의 작은 모듈은 섀시 관리 모듈용입니다.

Supermicro X13 SuperBlade 카시스 후면

Supermicro X13 SuperBlade 섀시 관리 및 배포

CMM(섀시 관리 모듈)을 Supermicro의 SuperBlade X13 섀시에 통합하면 개별 블레이드를 넘어 전체 랙을 포괄하는 다양한 이점을 제공하여 데이터 센터 운영의 전반적인 효율성과 관리 용이성을 향상시킵니다. CMM은 중앙 제어 지점 역할을 하여 SuperBlade X13 시스템 관리를 간소화합니다.

Supermicro X13 SuperBlade 섀시 관리

블레이드 섀시와 같은 통합 플랫폼에서는 모든 섀시 기능을 단일 창에서 확인하는 것이 중요합니다. 개별 블레이드의 전원을 껐다 켜는 기능이 어떤 사람에게는 중요할 수도 있지만, 다른 여러 기능도 일상적인 관리 루틴에서 중요한 역할을 합니다.

Supermicro의 CMM은 섀시를 모니터링하고, 설치된 블레이드를 확인하고, 섀시 후면에 설치된 통합 스위치를 관리할 수 있는 중앙 착륙 지점을 제공합니다. 이 대역 외 관리는 장치 IP 주소도 가져오므로 해당 중앙 지점에서 연결된 각 장치로 쉽게 이동할 수 있습니다.

설치된 각 블레이드의 관리는 독립형 Supermicro 서버의 관리와 유사합니다. BIOS 업데이트와 같은 활동은 BMC를 통해 수행됩니다. 이전 실험. 이러한 중앙 집중식 접근 방식을 통해 모든 블레이드에 걸쳐 신속한 배포와 일관된 업데이트가 가능하며 각 구성 요소가 최신 펌웨어 및 설정으로 작동하도록 보장합니다. 이러한 균일성은 시스템 안정성과 성능을 유지하는 데 필수적이며, 특히 구성 차이로 인해 상당한 비효율성이 발생할 수 있는 밀도가 높은 컴퓨팅 환경에서는 더욱 그렇습니다.

SuperBlade X13 관리에서 CMM의 역할은 전체 랙의 상태를 모니터링하고 제어하는 ​​것까지 확장됩니다. 전력 소비, 냉각, 네트워킹 및 시스템 상태를 감독하여 랙 성능에 대한 전체적인 보기를 제공합니다. 이러한 감시는 잠재적인 문제가 확대되기 전에 이를 식별 및 해결하고 가동 중지 시간을 최소화하며 최적의 운영 효율성을 유지하는 데 중요합니다.

CMM은 서버 블레이드를 관리하는 것 외에도 동일한 단일 인터페이스를 통해 네트워크 관리도 처리합니다. 이를 통해 사용자는 각각의 IP 주소가 표시된 연결된 두 스위치의 스위치 관리 화면에 쉽게 액세스하고 볼 수 있습니다. CMM은 또한 대규모 배포를 위해 인접 시스템과 통신하여 포괄적인 관리 패키지를 제공할 수 있습니다.

본질적으로 CMM은 SuperBlade X13의 관리를 일련의 개별 작업에서 응집력 있고 효율적인 프로세스로 전환합니다. 이는 각 블레이드의 관리를 단순화하고 전체 랙의 전반적인 성능과 안정성을 향상시키는 명령 센터를 갖는 것과 유사합니다. 블레이드 및 랙 관리에 대한 이러한 접근 방식은 하드웨어 관리 팀, 특히 확장성, 안정성 및 효율적인 시간 사용이 가장 중요한 데이터 센터에 도움이 됩니다.

Supermicro SuperBlade SBI-411E-5G – NVIDIA H100 성능

고성능 컴퓨팅에서 NVIDIA H411을 탑재한 SuperBlade SBI-5E-100G는 분산 교육 및 단일 블레이드 추론을 위한 다재다능하고 강력한 도구입니다. 이러한 유연성은 다양한 워크로드를 관리하는 데이터 센터와 같이 컴퓨팅 요구 사항이 크게 변동할 때 특히 두드러집니다.

Supermicro X13 SuperBlade - NVIDIA H100 GPU

분산 교육 시나리오

SuperBlade H100 노드는 복잡한 AI 모델에 필수적인 프로세스인 분산 교육에 탁월합니다. 대규모 신경망 모델이 방대한 데이터세트에서 훈련되는 시나리오를 상상해 보세요. 모델의 훈련은 H100의 고급 GPU의 성능을 활용하는 여러 블레이드에 분산됩니다. 이 분포는 훈련 프로세스를 가속화하고 단일 시스템에서 더 큰 모델과 비실용적인 데이터 세트를 처리할 수 있게 해줍니다.

200G InfiniBand는 여기서 중요한 역할을 합니다. 블레이드 간 빠르고 효율적인 데이터 교환이 중요한 분산 교육에는 고대역폭, 저지연 통신이 필수적입니다. 이러한 연결성을 통해 데이터 및 학습 매개변수가 모든 블레이드에서 일관되고 빠르게 동기화되어 대용량 데이터 처리에서 자주 발생하는 병목 현상이 최소화됩니다.

실험실에서의 분산 교육

분산 교육은 대규모 기계 학습 및 딥 러닝 작업에 접근하는 방식에 혁명을 일으켰습니다. 데이터가 왕입니다. 방대한 양의 교육 데이터를 효율적으로 처리하는 능력은 한동안 병목 현상이었습니다. 13개의 PCIe GPU를 갖춘 Supermicro SuperBlade X200과 같은 오픈 소스 라이브러리와 강력한 하드웨어는 특히 고속 XNUMXG InfiniBand 네트워크를 통해 연결될 때 게임 체인저가 됩니다.

TensorFlow 및 PyTorch와 같은 오픈 소스 라이브러리는 모든 제조업체의 지원과 검증을 통해 머신러닝 커뮤니티의 필수 요소가 되었습니다. 기계 학습 모델을 개발하고 확장하기 위한 강력하고 유연하며 끊임없이 진화하는 프레임워크를 제공합니다. 자연어 처리나 컴퓨터 비전에 사용되는 것과 같은 복잡한 모델을 훈련할 때 계산 요구 사항이 엄청날 수 있습니다. 이것이 SuperBlade X13이 등장하는 곳입니다.

GPU 지원 X13 블레이드

SuperBlade X13 플랫폼은 고밀도 컴퓨팅 기능으로 잘 알려져 있어 HPC 환경에 탁월한 선택입니다. H411 PCIe GPU가 장착된 이중 폭, 절반 높이 SBI-5E-100G 블레이드를 사용하는 SuperBlade X13은 공랭식에서 최대 10개의 GPU를 지원하고 섀시당 수냉식으로 최대 20개의 GPU를 지원하여 엄청난 병렬 처리 작업을 처리합니다. . 중요한 점은 블레이드를 언제든지 재구성할 수 있어 기업의 AI 워크로드 변화에 따라 매우 유연하게 사용할 수 있다는 것입니다.

극도로 낮은 지연 시간과 높은 처리량으로 InfiniBand를 섀시에 도입하면 데이터 및 모델 매개변수가 노드 간에 지속적으로 이동하는 데 도움이 됩니다. 이 고속 네트워크는 특히 대규모 데이터 세트와 복잡한 모델 아키텍처를 처리할 때 분산 시스템에서 병목 현상이 발생하는 데이터 전송 시간을 크게 줄여줍니다.

이 설정에 대한 분산 교육을 위해 오픈 소스 라이브러리를 통합하려면 몇 가지 주요 단계가 필요했습니다. 첫째, GPU 기능을 최대한 활용하기 위해 최적화된 컨테이너와 라이브러리를 선택해야 했습니다. 이는 이러한 라이브러리의 CUDA 지원 버전을 사용하여 GPU의 처리 능력을 직접 활용할 수 있도록 하는 것으로 구성됩니다. 둘째, InfiniBand는 NCCL(NVIDIA Collective Communications Library)과 함께 활용되어 집단 다중 GPU/다중 노드 통신을 위한 최적화된 통신 루틴을 제공해야 합니다.

실제로 이 플랫폼에서 분산 훈련 작업을 설정할 때 각 노드(이 경우 각 SuperBlade)는 모델의 일부를 실행합니다. 모델 매개변수는 노드 전체에서 실시간으로 동기화되며, InfiniBand 네트워크의 속도와 낮은 대기 시간 덕분에 더욱 촉진됩니다. 이러한 동기화는 모델의 수렴과 정확성에 매우 중요합니다.

TensorRT 및 LLM

NVIDIA의 TensorRT LLM(대형 언어 모델)은 인공 지능과 머신 러닝의 중요한 발전을 나타냅니다. 효율성과 속도를 위해 설계된 TensorRT LLM은 블레이드 서버 시스템 생태계의 중추적인 구성 요소로, 복잡한 AI 작업을 처리하는 데 탁월한 성능을 발휘하는 것으로 알려져 있습니다. 이 디자인은 기술 전문가와 IT 의사 결정자의 요구 사항을 충족하며 현대 데이터 센터의 까다로운 컴퓨팅 요구 사항을 처리하기 위한 강력한 솔루션을 제공합니다.

NVIDIA의 TensorRT LLM의 기술 프레임워크는 AI와 딥 러닝의 잠재력을 최대한 활용하도록 구축되었습니다. 신경망 추론을 최적화하도록 설계되어 고성능 컴퓨팅 환경에 이상적인 선택입니다. TensorRT LLM은 훈련된 모델을 최적화된 런타임 엔진으로 변환하여 대기 시간을 크게 줄이고 처리량을 높이는 기능을 통해 놀라운 효율성을 달성합니다. 이 기능은 빠른 데이터 처리와 최소 응답 시간이 중요한 블레이드 서버 시스템에 주로 도움이 됩니다. 또한 NVIDIA의 광범위한 GPU와의 호환성으로 다양성이 향상되어 다양한 IT 환경에서 확장 가능한 솔루션이 됩니다.

NVIDIA TensorRT LLM의 뛰어난 기능 중 하나는 분산 교육 기능입니다. 이러한 측면은 대규모 기계 학습 모델이 일반적인 환경에서 특히 중요합니다. 분산 교육을 통해 TensorRT LLM은 여러 시스템을 활용하여 계산 부하를 효율적으로 분산할 수 있습니다. 이를 통해 정확성이나 성능을 저하시키지 않으면서 복잡한 모델의 교육 시간을 크게 줄일 수 있습니다. 다양한 노드에 걸쳐 분산 교육을 수행할 수 있는 능력 덕분에 TensorRT LLM은 대규모 조직 및 연구 시설에서 흔히 볼 수 있는 광범위한 IT 인프라에 대한 적응력이 뛰어납니다. 또한 이러한 분산 접근 방식은 고급 AI 프로젝트에서 흔히 발생하는 과제인 대규모 데이터 세트 처리를 용이하게 하여 더욱 강력하고 정교한 AI 모델 개발을 가능하게 합니다.

TensorRT LLM의 최적화 및 고성능 추론 기능은 블레이드 서버의 조밀하고 상호 연결된 특성에 이상적으로 적합합니다. TensorRT LLM을 활용함으로써 블레이드 시스템은 복잡한 AI 모델을 보다 효율적으로 실행할 수 있어 처리 시간이 빨라지고 대기 시간이 단축됩니다. 이는 재무 모델링이나 의료 진단과 같이 실시간 데이터 분석 및 의사 결정이 필수적인 시나리오에서 특히 중요합니다.

Supermicro SuperBlade를 여러 시스템에 걸친 TensotRT LLM의 분산 교육 기능 및 적응성과 결합하면 기술 전문가와 IT 의사 결정자를 위한 자산 가치가 높아집니다. 이 강력한 조합을 활용함으로써 조직은 대규모 AI 프로젝트를 효율적으로 처리하여 더 빠른 처리, 감소된 대기 시간 및 확장 가능한 AI 배포를 보장할 수 있습니다. 이를 용이하게 하기 위해 섀시 내에서 Quantum InfiniBand 네트워크를 사용합니다.

MLPerf를 사용한 단일 블레이드 추론 성능 벤치마크

GPU 블레이드의 노드당 하나의 CPU에서 하나의 GPU로 구성된 아키텍처는 AI 및 데이터 분석 워크로드, 특히 단일 블레이드 추론 작업에 잠재적인 이점을 제공합니다. 이 디자인은 처리 능력의 균형 잡힌 비율을 제공하여 GPU 기능을 최적으로 활용할 수 있도록 합니다.

단일 블레이드 추론 성능을 테스트하기 위해 오프라인과 서버 모두에서 MLPerf 3.1 추론을 실행했습니다. BERT(BiDirectional Encoder Representations from Transformers)는 질문 답변, 언어 이해, 문장 분류와 같은 자연어 처리 작업에 주로 사용되는 변환기 기반 모델입니다. ResNet-50은 이미지 분류 작업에 널리 사용되는 CNN(Convolutional Neural Network) 모델입니다. 이는 심층적인 아키텍처이면서도 효율적인 성능으로 알려진 50개 레이어를 갖춘 ResNet 모델의 변형입니다.

단일 노드 추론
ResNet-50 – 오프라인: 46,326.6
ResNet-50 – 서버: 47,717.4
BERT K99 – 오프라인: 3,702.4
BERT K99 – 서버: 4,564.11
  • 오프라인 모드: 이 모드는 모든 데이터를 동시에 처리할 수 있을 때 시스템 성능을 측정합니다. 이는 시스템이 단일 배치로 대규모 데이터 세트를 처리하는 배치 처리와 유사합니다. 이 모드는 대기 시간이 주요 관심사는 아니지만 처리량과 효율성이 중요한 시나리오에 중요합니다.
  • 서버 모드: 이와 대조적으로 서버 모드는 요청이 한 번에 하나씩 들어오는 실제 서버 환경을 모방한 시나리오에서 시스템 성능을 평가합니다. 이 모드는 대기 시간에 민감하며 시스템이 각 요청에 얼마나 빨리 응답할 수 있는지 측정합니다. 이는 웹 서버나 대화형 애플리케이션과 같이 즉각적인 응답이 필요한 실시간 애플리케이션에 매우 중요합니다.

추론 작업에서 GPU는 주로 무거운 계산 작업을 담당합니다. 전용 CPU와 결합함으로써 시스템은 공유 CPU 또는 플랫폼 리소스로 인해 병목 현상이 발생하지 않고 GPU가 효율적으로 작동할 수 있도록 보장합니다. 이는 실시간 비디오 분석이나 즉석 언어 번역과 같은 실시간 데이터 처리 시나리오에서 매우 중요합니다.

흥미롭게도 우리는 이 1:1 CPU 대 GPU 비율이 성능 예측 가능성을 높여준다는 사실을 발견했습니다. 각 노드는 독립적으로 작동하여 일관된 처리 시간을 보장하고 추론 작업의 가변성을 줄입니다. 이러한 예측 가능성은 응답 시간이 중요한 환경에서 매우 중요합니다.

전반적으로 SuperBlade H100의 XNUMXCPU 대 XNUMXGPU 구성은 두 구성 요소의 효율성을 극대화합니다. 이를 통해 각 노드는 독립적인 모델과 프로세스를 운영하면서 추론 작업에 최적의 성능을 제공할 수 있습니다. 이 아키텍처는 실시간 데이터 처리 요구 사항을 효율적이고 안정적으로 처리하는 시스템 기능을 향상시킵니다.

적응형 워크로드 관리

모든 정보를 고려한 후에 SuperBlade 시스템의 적응성이 매우 높다는 것이 분명해졌습니다. 추론에 대한 수요가 높은 피크 시간대에는 이러한 작업을 처리하기 위해 더 많은 GPU 지원 블레이드를 동적으로 할당하여 실시간 요청을 효율적으로 처리할 수 있습니다. 반대로, 사용량이 적은 시간에는 이러한 리소스를 AI 모델을 미세 조정하거나 시간에 덜 민감한 작업을 처리하는 데 집중할 수 있습니다. 이러한 유연성은 리소스의 최적 활용을 허용하여 SuperBlade 시스템이 다양한 계산 부하를 관리하는 데 강력하고 효율적이라는 것을 보장합니다.

200G의 이점 엔비디아 퀀텀 이러한 시나리오의 InfiniBand

SuperBlade H200 시스템에 100G InfiniBand를 포함하면 고속 데이터 전송을 위한 백본을 제공하여 이러한 시나리오가 향상됩니다. 분산 교육을 통해 블레이드 전반에 걸쳐 데이터를 보다 빠르게 동기화할 수 있으며, 이는 교육 프로세스의 일관성과 속도를 유지하는 데 필수적입니다. 단일 블레이드 추론을 사용하면 처리를 위해 대규모 데이터 세트를 블레이드로 신속하게 이동하여 대기 시간을 줄이고 처리량을 높일 수 있습니다.

Quantum InfiniBand는 어떻게 되나요?

고성능 컴퓨팅의 초석인 InfiniBand는 슈퍼컴퓨팅 클러스터 내에서 계속 증가하는 데이터 전송 및 통신 수요를 해결하기 위해 처음 개발된 고속 상호 연결 기술입니다. 이 고도로 전문화된 네트워킹 솔루션은 수년에 걸쳐 발전하여 매우 낮은 대기 시간과 높은 대역폭을 제공하므로 HPC 환경의 서버, 스토리지 시스템 및 기타 구성 요소를 연결하는 데 이상적입니다.

우리가 배송한 Supermicro X13 블레이드에는 200G InfiniBand 네트워킹과 25G 이더넷이 장착되어 있습니다. 이는 분산 교육, 기타 대기 시간 및 데이터 집약적인 작업을 수행할 때 특히 유용했습니다. 위에서 언급한 매우 가변적이고 시간이 많이 걸리는 몇 가지 교육 기간을 거친 후 블레이드 섀시의 수많은 핀에 숨겨진 InfiniBand 네트워크의 실제 테스트 측정항목을 제공하려면 다른 측정항목이 필요하다고 판단했습니다. 실행 간 미세 조정의 극도의 가변성으로 인해 이러한 작업에 이와 같은 다중 노드 시스템을 사용하는 것의 영향 또는 그 부족을 정량화하는 것은 무책임합니다. 결과는 놀랍지 않았습니다.

엔터 버튼 엔비디아 클러스터킷. NVIDIA ClusterKit은 멀티노드 GPU 클러스터의 잠재력을 최대한 테스트하도록 설계된 툴킷으로, AI 및 HPC 실무자에게 워크로드의 성능, 효율성 및 확장성을 측정할 수 있는 흥미로운 도구 모음을 제공합니다.

우리는 ClusterKit의 두 가지 주요 도구에 중점을 두었습니다.

  • 대역폭 테스트: 대역폭은 주어진 시간에 네트워크를 통해 전송될 수 있는 데이터의 양을 반영하는 HPC의 중요한 지표입니다. 우리는 Supermicro SuperBlade 설정에서 노드 간의 양방향(이중) 대역폭을 측정하기 위해 NVIDIA ClusterKit을 활용했습니다. 이중 측정은 데이터가 양방향으로 동시에 흐르는 실제 시나리오를 반영하므로 필수적입니다.
  • 대기 시간 테스트: 대기 시간, 즉 메시지가 네트워크의 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간은 또 다른 중요한 성능 지표입니다. 긴밀하게 결합된 HPC 애플리케이션에서는 낮은 대기 시간이 중요합니다. 이중 지연 시간을 정확하게 측정하는 NVIDIA ClusterKit의 기능은 SuperBlade의 InfiniBand 네트워크 응답성에 대한 귀중한 통찰력을 제공했습니다.

ClusterKit을 사용한 SuperBlade InfiniBand 및 H100 GPU 벤치마킹 결과

이 섹션으로 이동하면 각 노드가 고유한 태그(예: smci-a7, smci-a1 등)로 식별된다는 점을 이해하는 것이 중요합니다. -1, -3, -5 및 -7 표시는 호스트 이름이며 섀시에 있는 블레이드의 물리적 위치를 반영합니다.

첫 번째 테스트는 클러스터의 다양한 노드 간 양방향 대역폭을 측정하는 데 중점을 두었습니다. 테스트에는 8,388,608회 반복된 16바이트의 메시지 크기가 포함되었습니다.

GPU 직접 테스트

먼저 GPU Direct 테스트를 살펴보겠습니다. 이는 작성 당시 사용 가능한 모든 최신 및 최고의 SDK와 툴킷을 활용하여 블레이드 플랫폼의 절대 최대 처리량을 보고합니다. 테스트에서는 대역폭을 이중 방식으로 보고한다는 점에 유의하는 것이 중요합니다. 즉, 대역폭이 양방향의 합계라는 의미입니다. 단일 방향은 대략 절반이 됩니다. 중요한 점은 대역폭 제한 요소가 200G InfiniBand라는 것입니다. 그러나 나중에 살펴보겠지만 이는 크게 우려할 사항은 아닙니다.

Divyansh Jain을 사용하여 Supermicro SuperBlade에서 Infiniband ClusterKit 테스트

아래 매트릭스는 GPUDirect를 사용한 양방향 대역폭을 보여줍니다.

대역폭 매트릭스 MB/s
순위/노드 smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
지연 시간 uSec

다음은 마이크로초 단위로 측정된 놀라운 대기 시간 테스트 결과였습니다. GPU Direct 테스트는 여러 GPU를 호스트에 로컬로 두는 것만큼 훌륭했습니다.

계급 smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

GPU 이웃 테스트

GPU 인접 테스트로 이동하면 다시 대역폭이 이중으로 보고됩니다. 즉, 대역폭이 양방향에서 총계임을 의미합니다. 단일 방향은 대략 절반이 됩니다. 아래 매트릭스는 양방향 대역폭을 보여줍니다. H100 카드 사이 1개의 노드 각각에서. 이는 GPUDirect 라이브러리의 가속을 사용하지 않습니다. 3, 5, 7, XNUMX의 표시는 호스트 이름으로, 섀시에 있는 블레이드의 물리적 위치를 반영합니다.

Supermicro X13 SuperBlade InfiniBand 스위치

SBS-IBS-H4020 HRD InfiniBand 스위치

GPU 인접 대역폭(MB/s)

"GPU 인접 대역폭" 테스트는 동일한 시스템 또는 노드 내 인접 GPU 간의 데이터 전송 속도를 측정합니다. 이 지표는 다중 GPU 병렬 처리 작업과 같이 근접한 GPU 간에 빈번한 데이터 교환이 필요한 애플리케이션에 매우 중요합니다. 대역폭이 높을수록 데이터 전송 속도가 빨라져 GPU 집약적 애플리케이션의 성능이 향상될 가능성이 있습니다.

GPU 대역폭(MB/초)
smci-a7과 smci-a1 30,653.9
smci-a3과 smci-a5 30,866.7
평균 30,760.3
GPU 메모리 대역폭(MB/s)

"GPU 메모리 대역폭" 테스트는 GPU 자체가 GPU 메모리에서 데이터를 읽거나 GPU 메모리에 저장할 수 있는 속도를 평가합니다. 이 대역폭은 특히 대규모 데이터 세트를 포함하거나 이미지 처리, 시뮬레이션 또는 딥 러닝과 같은 작업에 높은 처리량이 필요한 애플리케이션의 경우 중요한 성능 측면입니다. 메모리 대역폭이 높을수록 대용량 데이터를 효율적으로 처리하는 GPU의 능력이 향상되었음을 나타냅니다. 이 테스트는 X13 블레이드가 H100 GPU를 유지하는 데 문제가 없음을 보여줍니다.

GPU 대역폭
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
평균 55,541.6
GPU 간 대역폭(MB/초)

이 테스트는 서로 다른 GPU 간의 양방향 대역폭을 측정합니다. GPU 간 데이터 전송 속도가 전체 처리 시간에 큰 영향을 미칠 수 있는 여러 GPU에 분산된 복잡한 계산을 포함하는 작업에 필수적입니다. 높은 GPU-GPU 대역폭은 다중 GPU 워크플로 및 병렬 컴퓨팅 작업을 가속화하는 데 유용합니다.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
평균 30,762.9
GPU0 - 원격 호스트 대역폭(MB/s)

"GPU0-원격 호스트 대역폭" 테스트는 기본 GPU(GPU0)와 원격 호스트 시스템 간의 데이터 전송 속도를 정량화합니다. 이는 기본 GPU와 네트워크 시스템의 다른 부분 간에 데이터를 자주 이동해야 하는 분산 컴퓨팅 환경에서 매우 중요하며, 이는 분산 딥 러닝 교육이나 원격 서버의 데이터 분석과 같은 작업에 영향을 미칩니다.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
GPU 이웃 지연 시간(μ초)

"GPU 이웃 지연 시간" 테스트는 소량의 데이터가 하나의 GPU에서 인접한 GPU로 이동하는 데 걸리는 시간을 측정합니다. 특히 실시간 렌더링이나 복잡한 과학 시뮬레이션과 같이 실시간 데이터 처리나 GPU 간의 고속 통신이 필요한 애플리케이션에서는 낮은 대기 시간이 바람직합니다.

GPU 숨어 있음
smci-a7과 smci-a1 11.03
smci-a3과 smci-a5 11.01
GPU에서 원격 호스트까지의 지연 시간(μ초)

"GPU0에서 원격 호스트까지의 지연 시간" 테스트는 기본 GPU(GPU0)와 원격 호스트 시스템 간의 데이터 통신 지연을 측정합니다. 이 대기 시간은 분산 컴퓨팅 환경에서 중요한 요소로, 클라우드 기반 게임이나 원격 데이터 처리와 같이 GPU와 원격 시스템 간의 상호 작용에 의존하는 애플리케이션의 응답성과 효율성에 영향을 미칩니다.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
평균 3.37

NVIDIA ClusterKit 테스트에서는 Supermicro SuperBlade의 InfiniBand 네트워크에 대한 인상적인 성능 지표가 밝혀졌습니다. 이중 대역폭 테스트에서는 높은 데이터 전송 속도가 나타났으며 이는 InfiniBand 기능이 효율적으로 활용되고 있음을 나타냅니다. 마찬가지로 대기 시간 테스트에서는 지연이 최소화되어 까다로운 HPC 작업에 대한 네트워크의 적합성이 강조되었습니다. 이는 이 플랫폼이 독립형 시스템과 동등한 성능을 발휘하고 훨씬 더 높은 밀도의 컴퓨팅 및 네트워킹을 모두 통합 솔루션에서 제공한다는 것을 의미합니다.

독립형 GPU 서버 테스트

다음으로 우리는 4x NVIDIA H100을 슈퍼마이크로 4U AMD EPYC GPU 서버 4개를 동시에 지원할 수 있는 GPU와 GPU 간 지연 시간을 테스트해 보았습니다. 블레이드 간 통신 없이 이 서버에 있는 카드의 성능 프로필을 이해하려고 한다는 점을 이해하는 것이 중요합니다. 이 4U 서버는 지원할 수 있는 카드 측면에서 유연하지만 Supermicro X13 SuperBlade 섀시가 제공하는 극단적인 구성성을 갖지 않습니다. 물론 Supermicro는 평소와 같이 수냉식 소켓 GPU를 포함한 모든 애플리케이션에 대한 솔루션을 제공합니다.

먼저 한 플랫폼에 있는 4개의 GPU의 PXNUMXP 대역폭을 살펴보겠습니다.

 쓰기 대역폭(GB/s) - 단방향

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

읽기 대역폭(GB/s) - 단방향

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

여기서 중요한 점은 GPU0과 GPU1 GPU는 하나의 NUMA 노드에 있고 GPU2와 GPU3은 다른 NUMA 노드에 있다는 점입니다. 여기서는 NUMA 노드 통과가 성능에 미치는 영향을 명확하게 확인할 수 있습니다.

복사 엔진(CE) – 쓰기 지연 시간(us)

마지막으로 GPU 간 지연 시간을 측정합니다.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

예상대로 모든 GPU를 단일 플랫폼으로 이동하면 블레이드의 2G IB 연결에 비해 대역폭이 200배 향상됩니다. 여기서 대역폭은 애플리케이션에 대한 고려 사항일 수 있지만 마이크로초 단위로 작업하는 대기 시간 수치에 대해 이야기할 때 올인원 섀시에서 평균 1.6us GPU에서 GPU로 이동하는 것을 보고하는 데 큰 변화는 없습니다. PCIe 버스, IB 스위치 및 GPU를 통과해야 할 때 블레이드의 1.5us는 놀랍습니다. 하지만 그건 지원 전체 이야기.

결론

Emerald Rapids CPU와 NVIDIA H13 GPU를 탑재한 Supermicro X100 SuperBlade는 블레이드의 역할에 있어 환영받는 진화입니다. 그 기능은 다양한 계산 집약적 작업에 걸쳐 확장되어 데이터 분석에서 AI 및 클라우드 컴퓨팅에 이르는 산업을 위한 다재다능하고 강력한 솔루션을 제공합니다. 고성능 컴퓨팅에 대한 수요가 계속 증가함에 따라 X13은 이러한 과제를 해결할 준비가 되어 있으며 서버 기술의 혁신과 우수성에 대한 Supermicro의 헌신을 보여줍니다.

테스트를 통해 고려된 모든 사항 중에서 우리는 전체적인 관점에서 볼 때 독특하고 적응성이 뛰어난 특성 덕분에 이 플랫폼에 특히 관심이 있습니다. 플랫폼의 적용을 맥락화하는 것이 중요합니다.

모든 고성능 컴퓨팅 성능을 위해 랙에 Supermicro X13 블레이드 시스템이 있는 연구 부서의 시나리오를 상상해 보십시오. 플랫폼에 내장된 중앙 집중식 관리 인프라를 사용하여 블레이드와 플랫폼 자체를 제어할 뿐만 아니라 다른 장비의 제어, 네트워킹 및 관리를 위한 허브로 사용할 수도 있습니다. 충분히 강력한 스토리지 서버를 SuperBlade에 연결하여 데이터 사용량이 많은 GPU에 공급하면 모든 비트를 모델에 회선 속도로 수집할 수 있습니다. 이 가상의 시나리오에서는 매일 다양한 연구원이 모든 GPU를 활용하고, 때가 되면 InfiniBand를 통해 모든 블레이드를 연결하여 함께 작동하게 할 수 있습니다.

CPU와 GPU의 일대일 관계에 대한 대역폭 테스트에서도 블레이드 섀시가 완전히 로드된 경우 블레이드 시스템과 추가 카드 GPU가 있는 단일 서버보다 성능이 더 뛰어날 수 있음이 나타났습니다. 적절하게 설계된 분산 훈련 워크플로를 사용하면 기본적으로 단일 노드에 모든 GPU를 사용하는 것보다 더 좋거나 더 나은 성능을 볼 수 있지만 이제는 이중 작업을 쉽게 수행할 수 있는 플랫폼을 얻게 되어 초기 GPU 비용을 절반으로 줄일 수 있습니다. . 일단 구현된 최신 CPU의 지원 덕분에 우리는 HDR InfiniBand에서 NDR로 전환할 수 있기를 기대합니다. 그렇게 하면 SuperBlade가 단일 GPU 서버 플랫폼에서 얻을 수 있는 성능을 뛰어넘을 수 있기 때문입니다.

Supermicro X13 SuperBlade 섀시와 GPU 블레이드는 AI 요구 사항이 진화하거나 정기적으로 변화하는 사람들을 위한 적응력이 뛰어나고 강력한 선택입니다. 플랫폼에서 오랜 시간을 보내면서 우리는 DRAM, CPU 및 GPU 변경에 대한 요구 사항에 직면했습니다. AI 세계에서 알려진 대로 "또 다른 날"은 모두 플랫폼에서 쉽게 처리됩니다. 전반적으로 이 플랫폼은 견고하며 AI 공간을 위한 흥미롭고 강력한 장치로 자리 잡았으며, 더 이상 요구할 사항이 없습니다. 경쟁 시스템의 가격대를 고려할 때 블레이드의 유연성을 활용할 수 있다면 이는 거의 타의 추종을 불허합니다.

슈퍼마이크로 X13 슈퍼블레이드 

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드