CoreWeave, 첫 번째 Dell XE9712 GB200 NVL-72 시스템 공개

by 디뱐시 자이나교 2024 년 12 월 2 일

작성자 : 디뱐시 자이나교 2024 년 12 월 2 일

CoreWeave는 성능 통찰력을 갖춘 최초의 Dell XE9712 GB200 NVL-72 시스템을 공개했습니다!

CoreWeave는 새로운 Dell XE200 서버와 함께 최신 GB72 NVL-9712 시스템을 구축했습니다. 이 시스템은 Switch 최첨단 데이터 센터에서 라이브 데모로 선보였으며, 획기적인 성능과 고급 냉각 인프라를 강조했습니다.

델 XE9712 GB200 NVL-72

Rob Roy의 Evo Chamber에 보관된 CoreWeave의 GB200 NVL-72 시스템은 가장 까다로운 컴퓨팅 워크로드를 처리하도록 설계되었습니다. 라이브 데모는 랙의 72개 GPU에서 Nvidia NVLink 상호 연결의 초고대역폭과 낮은 대기 시간을 보여주는 벤치마크인 NCCL All-Reduce Test로 시작되었습니다. 이 테스트는 GPU 간의 원활한 통신을 보장합니다.

B이를 바탕으로 GPU Blaze Test는 시스템의 원시 연산 능력을 보여주었습니다. GPU는 복잡한 행렬 곱셈 워크로드를 처리하고 AI 훈련, 과학적 시뮬레이션 및 고급 데이터 처리에 사용되는 작업을 시뮬레이션했습니다.

CoreWeave의 Sunk를 사용한 라이브 트레이닝

GB200 NVL-72는 Kubernetes(Sunk)에서 Slurm을 사용하여 라이브 트레이닝을 실행하여 Megatron 모델을 트레이닝하여 테스트되었습니다. 트레이닝 세션은 실제 워크로드로 랙을 검증하고 냉각 및 전력 인프라에 발생하는 부하를 보여주었습니다.

GPU 활동이 증가함에 따라 랙 내부 냉각 분배 장치(CDU)는 최적의 하드웨어 온도를 유지하기 위해 냉각 출력을 동적으로 조정했습니다. CDU의 실시간 데이터는 GPU 작업 부하에 따라 유체 반환 온도가 어떻게 증가하는지 보여주었으며, 성능을 저하시키지 않으면서 효율적인 열 관리를 보장했습니다.

GB200 NVL-72의 전원 대시보드는 시스템의 에너지 요구 사항을 지속적으로 살펴보고 에너지 관리에 있어서 효율성과 투명성을 입증했습니다.

롭 로이의 에보 챔버

NVL72는 Rob Roy의 Evo Chamber에 보관되어 랙당 1MW의 인상적인 전력 및 냉각 용량을 제공합니다. 인프라의 이러한 발전은 250kW의 공기 냉각과 750kW의 직접 칩 액체 냉각 용량을 결합하여 가장 까다로운 AI 및 HPC 워크로드에 최적의 성능을 보장합니다. 챔버의 정교한 설계는 차세대 컴퓨팅 요구 사항을 지원하는 동시에 효율적인 전력 사용과 열 관리를 유지합니다.

결론

CoreWeave는 서비스로서의 AI 인프라를 제공하는 데 있어 분명한 업계 리더입니다. 그들의 성공의 대부분은 다른 클라우드보다 최신 AI 인프라를 더 빠르게 온보딩할 수 있는 능력 덕분입니다. 새로운 Dell GB200 NVL-72 시스템은 고성능 컴퓨팅의 새로운 시대를 대표합니다. 최첨단 GPU 성능, 고급 냉각 솔루션, 에너지 효율성을 결합하여 AI, 과학 연구, 데이터 집약적 애플리케이션의 요구 사항을 충족합니다. 이는 대규모 AI 워크로드를 실행하는 고객에게 큰 승리입니다.

코어위브

StorageReview에 참여

디뱐시 자이나교

NLP와 대규모 훈련에 중점을 둔 MLOps 및 머신 러닝 엔지니어. Storage Review에서 AI, GPU 및 새로운 워크로드 테스트를 다루어 실용적인 통찰력과 성능 분석을 제공합니다.

이전 게시물

CoreWeave, 첫 번째 Dell XE9712 GB200 NVL-72 시스템 공개

롭 로이의 에보 챔버

결론

디뱐시 자이나교

Proxmox Backup Server 3.3 출시

AWS, I2g 및 I8ie 유형 도입으로 스토리지 최적화 EC7 인스턴스 확장

신뢰할 수 있는 공급업체