홈페이지 Enterprise NVIDIA DGX GH200: 제너레이티브 AI를 위한 게임 체인저

NVIDIA DGX GH200: 제너레이티브 AI를 위한 게임 체인저

by 조던 라누스

번개처럼 빠르고 끊임없이 진화하는 인공 지능(AI) 환경에서 NVIDIA DGX GH200은 혁신의 횃불로 떠오릅니다. 가장 까다로운 AI 워크로드를 염두에 두고 설계된 이 강력한 시스템은 기업이 제너레이티브 AI에 접근하는 방식을 혁신하기 위한 완벽한 솔루션 세트입니다. NVIDIA는 GH200이 어떻게 결합되는지 보여주는 새로운 세부 정보를 제공하고 이 최신 세대 GPU 기술을 통해 AI 성능이 어떤지 보여줍니다.

번개처럼 빠르고 끊임없이 진화하는 인공 지능(AI) 환경에서 NVIDIA DGX GH200은 혁신의 횃불로 떠오릅니다. 가장 까다로운 AI 워크로드를 염두에 두고 설계된 이 강력한 시스템은 기업이 제너레이티브 AI에 접근하는 방식을 혁신하기 위한 완벽한 솔루션 세트입니다. NVIDIA는 GH200이 어떻게 결합되는지 보여주는 새로운 세부 정보를 제공하고 이 최신 세대 GPU 기술을 통해 AI 성능이 어떤지 보여줍니다.

NVIDIA DGX GH200 랙

NVIDIA DGX GH200: 완벽한 솔루션

DGX GH200은 단순한 랙 하드웨어가 아닙니다. 고성능 컴퓨팅(HPC)과 AI를 결합한 종합 솔루션입니다. 가장 복잡한 AI 워크로드를 처리하도록 설계되어 타의 추종을 불허하는 수준의 성능을 제공합니다.

DGX GH200은 NVIDIA GH200 Grace Hopper Superchip, NVIDIA NVLink-C2C, NVIDIA NVLink Switch System 및 NVIDIA Quantum-2 InfiniBand를 포함한 완전한 하드웨어 스택을 하나의 시스템으로 통합합니다. NVIDIA는 모델 개발을 가속화하도록 특별히 설계된 최적화된 소프트웨어 스택으로 이 모든 것을 뒷받침하고 있습니다.

NVIDIA GH200 Grace Hopper Superchip 사양
스펙 세부 정보
GPU 호퍼 96GB HBM3, 4TB/s
CPU 72 코어 암 네오버스 V2
CPU 메모리 최대 480GB/s에서 최대 5GB LPDDR500, DDR4보다 5배 더 에너지 효율적
CPU-GPU NVLink-C2C 900GB/s 양방향 코히어런트 링크, PCIe Gen5보다 5배 더 에너지 효율적
GPU 대 GPU NVLink 900GB/s 양방향
고속 I/O 최대 4GB/s에서 5x PCIe Gen16 x512
TDP 450W에서 1000W까지 구성 가능

확장 GPU 메모리

EGM(Extended GPU Memory) 기능이 탑재된 NVIDIA Grace Hopper Superchip은 자체 HBM3 및 LPDDR5X 메모리 하위 시스템의 용량보다 더 큰 메모리 공간을 차지하는 애플리케이션을 처리하도록 설계되었습니다. 이 기능을 통해 GPU는 시스템의 모든 CPU 및 GPU에서 최대 144TB의 메모리에 액세스할 수 있으며 LPDDR5X 속도에서 데이터 로드, 저장 및 원자적 작업이 가능합니다. EGM은 표준 MAGNUM IO 라이브러리와 함께 사용할 수 있으며 NVIDIA NVLink 및 NVLink-C2C 연결을 통해 CPU 및 기타 GPU에서 액세스할 수 있습니다.

DGX GH200 NVLink 메모리는 연결된 Grace Hopper Superchips에서 액세스합니다.

연결된 Grace Hopper Superchips에서 NVLink 메모리 액세스

NVIDIA는 NVIDIA Grace Hopper Superchip의 EGM(Extended GPU Memory) 기능이 방대한 메모리 용량을 제공하여 LLM(Large Language Models) 교육을 크게 향상시킨다고 말합니다. LLM은 일반적으로 매개변수, 계산을 저장하고 교육 데이터 세트를 관리하기 위해 엄청난 양의 메모리가 필요하기 때문입니다.

시스템의 모든 CPU 및 GPU에서 최대 144TB의 메모리에 액세스할 수 있으므로 모델을 보다 효율적이고 효과적으로 교육할 수 있습니다. 대용량 메모리 기능은 더 높은 성능, 더 복잡한 모델 및 더 크고 자세한 데이터 세트로 작업할 수 있는 기능으로 이어져 잠재적으로 이러한 모델의 정확도와 유용성을 향상시킵니다.

NVLink 스위치 시스템

LLM(Large Language Models)의 요구가 계속해서 네트워크 관리의 경계를 확장함에 따라 NVIDIA의 NVLink 스위치 시스템은 여전히 ​​강력한 솔루션입니다. 256세대 NVLink 기술과 200세대 NVSwitch 아키텍처의 성능을 활용하는 이 시스템은 DGX GH25.6 시스템 내의 인상적인 XNUMX NVIDIA Grace Hopper Superchips에 고대역폭, 저지연 연결을 제공합니다. 그 결과 놀라운 XNUMXTbps의 전이중 대역폭이 제공되어 데이터 전송 속도가 크게 향상되었습니다.

200세대 NVLink 기술을 사용하는 DGX GHXNUMX 슈퍼컴퓨터 NVSwitch 논리적 개요

DGX GH200 슈퍼컴퓨터 NVSwitch 4세대 NVLink 로직 개요

DGX GH200 시스템에서 모든 GPU는 본질적으로 NVLink 네트워크에 있는 피어의 HBM3 및 LPDDR5X 메모리에 침입할 수 있는 코가 많은 이웃입니다. NVIDIA Magnum IO 가속 라이브러리와 결합된 이 "노시 이웃"은 GPU 통신을 최적화하고 효율적으로 확장하며 효과적인 네트워크 대역폭을 두 배로 줄입니다. 따라서 LLM 교육이 과급되고 커뮤니케이션 오버헤드가 증가하는 동안 AI 작업은 터보 부스트를 얻습니다.

DGX GH200의 NVIDIA NVLink 스위치 시스템은 많은 GPU 간의 고대역폭, 저지연 연결을 촉진하여 LLM과 같은 모델의 교육을 크게 향상시킬 수 있습니다. 이를 통해 GPU 간에 데이터를 더 빠르고 효율적으로 공유할 수 있으므로 모델의 교육 속도와 효율성이 향상됩니다. 또한 NVLink 네트워크의 다른 Superchip에서 피어 메모리에 액세스할 수 있는 모든 GPU의 기능은 사용 가능한 메모리를 증가시키며, 이는 큰 매개변수 LLM에 매우 중요합니다.

Grace Hopper Superchips의 인상적인 성능은 의심할 여지 없이 AI 연산 영역의 게임 체인저이지만 이 시스템의 진정한 마법은 NVLink에서 발생합니다. 완전히 새로운 수준으로.

DGX GH200 시스템 아키텍처

DGX GH200 슈퍼컴퓨터의 아키텍처는 복잡하면서도 세심하게 설계되었습니다. 256개의 GH200 Grace Hopper 컴퓨팅 트레이와 200단계 NVLink 팻 트리를 형성하는 NVLink 스위치 시스템으로 구성됩니다. 각 컴퓨팅 트레이에는 GHXNUMX Grace Hopper Superchip, 네트워킹 구성 요소, 관리 시스템/BMC 및 데이터 스토리지 및 운영 체제 실행을 위한 SSD가 있습니다.

200-GraceHopper Superchip 섀시의 DGX Gh8 NVLink 토폴로지

8-GraceHopper Superchip 섀시의 NVLink 토폴로지

NVIDIA Grace Hopper 컴퓨팅 트레이 사양
카테고리 세부 정보
CPU / GPU NVLink-C1C가 포함된 2x NVIDIA Grace Hopper Superchip
GPU/GPU 18x NVLink XNUMX세대 포트
네트워킹 1x NVIDIA ConnectX-7(OSFP 포함):
> NDR400 InfiniBand 컴퓨팅 네트워크
1x 듀얼 포트 NVIDIA BlueField-3(2x QSFP112 포함) 또는 1x 듀얼 포트 NVIDIA ConnectX-7(2x QSFP112 포함):
> 200GbE 인밴드 이더넷 네트워크
> NDR200 IB 스토리지 네트워크
대역 외 네트워크:
> 1GbE RJ45
스토리지 데이터 드라이브: 2TB(U.4 NVMe SSD) SW RAID 2 0개
OS 드라이브: 2x 2TB(M.2 NVMe SSD) SW RAID 1

이 설정에서는 8개의 컴퓨팅 트레이가 XNUMX개의 첫 번째 수준 NVLink NVSwitch 트레이에 연결되어 단일 XNUMX-GPU 섀시를 설정합니다. 모든 NVLink 스위치 트레이에는 맞춤형 블라인드 메이트 케이블 카트리지를 통해 컴퓨팅 트레이에 연결하고 LinkX 케이블을 통해 XNUMX단계 NVLink 스위치에 연결하는 XNUMX개의 NVSwitch ASIC가 있습니다.

그 결과 시스템은 포괄적인 NVIDIA DGX GH36 슈퍼컴퓨터를 형성하기 위해 32개의 섀시를 연결하는 200개의 2단계 NVLink 스위치로 구성됩니다. 자세한 내용은 Grace Hopper Superchip이 있는 컴퓨팅 트레이의 사양은 표 3를, NVLink 스위치 사양은 표 XNUMX을 참조하십시오.

DGX GH200 NVLink 토폴로지

DGX GH200 NVLink 토폴로지

DGX GH200의 네트워크 아키텍처

NVIDIA DGX GH200 시스템은 7개의 정교한 네트워크 아키텍처를 통합하여 최첨단 컴퓨팅 및 스토리지 솔루션을 제공합니다. 첫째, NVIDIA ConnectX-2 및 Quantum-400 스위치로 구성된 컴퓨팅 InfiniBand 패브릭은 레일에 최적화된 완전 트리 NDR200 InfiniBand 패브릭을 형성하여 여러 DGX GHXNUMX 장치 간에 원활한 연결을 가능하게 합니다.

둘째, NVIDIA BlueField-3 데이터 처리 장치(DPU)로 구동되는 스토리지 패브릭은 QSFP112 포트를 통해 고성능 스토리지를 제공합니다. 이렇게 하면 트래픽 정체를 능숙하게 방지하는 맞춤형 전용 스토리지 네트워크가 구축됩니다.

인밴드 관리 패브릭은 모든 시스템 관리 서비스를 연결하고 스토리지 풀, Slurm 및 Kubernetes와 같은 시스템 내 서비스, NVIDIA GPU Cloud와 같은 외부 서비스에 대한 액세스를 용이하게 하는 세 번째 아키텍처 역할을 합니다.

마지막으로, 1GbE에서 작동하는 대역 외 관리 패브릭은 BMC(Baseboard Management Controller)를 통해 Grace Hopper 슈퍼칩, BlueField-3 DPU 및 NVLink 스위치에 대한 필수 대역 외 관리를 감독하여 운영을 최적화하고 다른 서비스와 충돌합니다.

AI의 힘 발휘 – NVIDIA DGX GH200 소프트웨어 스택

DGX GH200은 개발자가 원할 수 있는 모든 원시 성능을 갖추고 있습니다. 멋진 슈퍼 컴퓨터 그 이상입니다. AI를 발전시키기 위해 그 힘을 활용하는 것입니다. 의심할 여지 없이 DGX GH200과 함께 제공되는 소프트웨어 스택은 뛰어난 기능 중 하나입니다.

이 포괄적인 솔루션은 하드웨어의 기능을 완전히 활용하도록 설계된 여러 최적화된 SDK, 라이브러리 및 도구로 구성되어 효율적인 애플리케이션 확장 및 향상된 성능을 보장합니다. 그러나 DGX GH200의 소프트웨어 스택의 폭과 깊이는 지나가는 언급 이상의 가치가 있습니다. 확인하십시오. 엔비디아의 백서 소프트웨어 스택에 대한 심층 분석을 위한 주제입니다.

DGX GH200의 보관 요건

DGX GH200 시스템의 기능을 최대한 활용하려면 균형 잡힌 고성능 스토리지 시스템과 페어링하는 것이 중요합니다. 각 GH200 시스템은 NDR25 인터페이스에서 최대 200GB/s의 속도로 데이터를 읽거나 쓸 수 있습니다. 256 Grace Hopper DGX GH200 구성의 경우 NVIDIA는 읽기 처리량을 최대화하기 위해 450GB/s의 총 스토리지 성능을 제안합니다.

적절한 스토리지를 갖춘 AI 프로젝트 및 기본 GPU에 연료를 공급해야 할 필요성은 여름의 가장 인기 있는 무역 박람회 순회 강연입니다. 말 그대로 우리가 본 모든 쇼에는 AI 워크플로 및 스토리지 전용 기조 연설의 일부가 있습니다. 그러나 이 이야기 중 얼마나 많은 부분이 기존 스토리지 제품의 재배치에 불과하고 AI 스토리지에 대한 의미 있는 향상으로 이어지는지는 두고 볼 일입니다. 지금은 말하기에는 너무 이르지만 AI 워크로드에 의미 있는 변화를 가져올 잠재력이 있는 스토리지 공급업체로부터 많은 소문을 듣고 있습니다.

하나의 장애물 뛰어 넘었고, 더 따라야 할 것

DGX GH200은 AI 개발의 하드웨어 설계 측면을 간소화하지만, Generative AI 분야에는 다른 상당한 과제가 있다는 점을 인식하는 것이 중요합니다. 훈련 데이터의 생성.

Generative AI 모델을 개발하려면 엄청난 양의 고품질 데이터가 필요합니다. 그러나 원시 형태의 데이터는 즉시 사용할 수 없습니다. AI 모델 교육에 적합하도록 만들기 위해서는 광범위한 수집, 청소 및 라벨링 노력이 필요합니다.

데이터 수집은 초기 단계이며 방대한 양의 관련 정보를 소싱하고 축적하는 것과 관련이 있으며 이는 종종 시간과 비용이 많이 소요될 수 있습니다. 다음은 오류를 식별 및 수정하고, 누락된 항목을 처리하고, 관련이 없거나 중복된 데이터를 제거하기 위해 세부 사항에 세심한 주의를 기울여야 하는 데이터 정리 프로세스입니다. 마지막으로 지도 학습의 필수 단계인 데이터 라벨링 작업은 AI가 이해하고 학습할 수 있도록 각 데이터 포인트를 분류하는 작업입니다.

교육 데이터의 품질이 가장 중요합니다. 더럽거나 품질이 좋지 않거나 편향된 데이터는 AI의 부정확한 예측과 잘못된 의사 결정으로 이어질 수 있습니다. 여전히 인간의 전문 지식이 필요하며 교육에 사용되는 데이터가 풍부하고 최고 품질인지 확인하려면 엄청난 노력이 필요합니다.

이러한 프로세스는 사소하지 않으며 교육 데이터에 대한 전문 지식을 포함하여 인적 및 자본 모두 상당한 리소스가 필요하며 하드웨어를 넘어선 AI 개발의 복잡성을 강조합니다. 이 중 일부는 다음과 같은 프로젝트로 해결되고 있습니다. NeMo 가드레일 Generative AI를 정확하고 안전하게 유지하도록 설계되었습니다.

생각을 폐쇄

NVIDIA DGX GH200은 AI 환경을 재정의할 수 있는 완벽한 솔루션입니다. 비교할 수 없는 성능과 고급 기능을 갖춘 이 제품은 AI의 미래를 주도할 게임 체인저입니다. 가능성의 한계를 뛰어넘고자 하는 AI 연구원이든 AI의 힘을 활용하려는 기업이든 DGX GH200은 목표를 달성하는 데 도움이 되는 도구입니다. 원시 컴퓨팅 능력이 더 널리 보급됨에 따라 훈련 데이터 생성이 어떻게 처리되는지 관찰하는 것은 흥미로울 것입니다. 이 측면은 하드웨어 릴리스에 대한 논의에서 자주 간과됩니다.

모든 것을 고려할 때 DGX GH200 시스템의 높은 비용을 인정하는 것이 중요합니다. DGX GH200은 저렴하지 않으며 프리미엄 가격표는 대기업과 가장 자금력이 풍부한 AI 회사(NVIDIA, hit me up, I want one)의 영역에 딱 맞습니다. 즉, DGX GH200은 AI 개발 및 응용 프로그램의 경계를 재정의할 수 있는 잠재력을 가진 패러다임 전환 투자를 나타냅니다.

더 많은 대기업이 이 기술을 채택하고 고급 AI 솔루션을 만들고 배포하기 시작하면 AI 기술의 광범위한 민주화로 이어질 수 있습니다. 혁신이 더 비용 효율적인 솔루션으로 흘러들어 소규모 기업이 AI에 더 쉽게 접근할 수 있기를 바랍니다. DGX GH200과 같은 컴퓨팅 성능에 대한 클라우드 기반 액세스가 점점 더 널리 사용 가능해지고 있어 소기업이 사용량에 따라 비용을 지불하는 방식으로 그 기능을 활용할 수 있습니다. 선결제 비용이 높을 수 있지만 DGX GH200의 장기적인 영향력은 업계 전체에 파급되어 모든 규모의 비즈니스를 위한 경쟁의 장을 평준화하는 데 도움이 될 수 있습니다.

GH200 백서

엔비디아 GH200 플랫폼

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드