홈페이지 Enterprise NVIDIA GTC 2024 기조 연설 – 1일차 메가포스트

NVIDIA GTC 2024 기조 연설 – 1일차 메가포스트

by 조던 라누스
dgx gb200 노드

NVIDIA GTC 2024가 출시되었습니다. 몇 년 만에 처음으로 다시 직접 만나봤습니다. Jordan은 주요 AI 이벤트에 대한 모든 최신 뉴스와 분석을 실시간으로 제공하는 이벤트에 참석했습니다.

NVIDIA의 GPU 기술 컨퍼런스(GTC)가 수년 만에 가상 전용 이벤트로 다시 돌아왔습니다. 이는 혁신가, 연구원, 과학자, 기술 애호가 모두가 거대 기술 기업의 최신 기술을 볼 수 있는 환상적인 이벤트입니다. 기술 커뮤니티에서 많은 기대를 모으고 있는 올해 NVIDIA GTC 2024에서는 AI, 딥 러닝, 자율주행차, 새로운 Blackwell 아키텍처 분야의 최신 혁신을 선보입니다.

다음은 NVIDIA CEO Jensen Huang의 월요일 기조연설의 주요 내용입니다. 여기에는 NVIDIA의 새로운 Blackwell 아키텍처, 네트워킹, 양자 컴퓨팅 발전 및 소프트웨어 스택 업데이트가 포함되었습니다.

엔비디아 블랙웰

가속 컴퓨팅을 재정의할 6가지 획기적인 기술은 Blackwell 혁신의 핵심입니다. 데이터 처리 강화부터 약물 설계 혁신에 이르기까지 NVIDIA는 새로운 표준을 설정하고 있습니다. Amazon 및 Microsoft와 같은 유명 기업들은 이미 Blackwell의 혁신적인 잠재력을 기대하며 줄을 서고 있습니다.

NVIDIA가 성취한 엔지니어링의 경이로움을 확대해 보겠습니다. Blackwell GPU는 208개의 레티클 제한 4NP TSMC 프로세스를 활용하여 10개의 칩에 무려 XNUMX억 개의 트랜지스터를 담았습니다. 이 접근 방식은 반도체 제조의 경계에 도전하고 엄청난 XNUMXTB/s 인터페이스로 칩을 연결하는 새로운 방법을 도입합니다. 칩렛 설계를 향한 이러한 움직임은 전통적인 경계를 뛰어넘으려는 NVIDIA의 야망을 반영합니다.

스펙 H100 B100 B200
최대 메모리 80GB HBM3 192GB HBM3e 192GB HBM3e
메모리 대역폭 3.35TB/초 8TB/초 8TB/초
FP4 - 14PFLOPS 18PFlop
FP6 - 7PFLOPS 9PFLOPS
FP8/INT8 3.958PFLOPS/POPS 7PFLOPS/POPS 9PFLOPS/POPS
FP16/BF16 1979 TFLOPS 3.5PFLOPS 4.5PFLOPS
TF32 989 TFLOPS 1.8PFLOPS 2.2PFLOPS
FP64 67 TFLOPS 30 TFLOPS 40 TFLOPS
최대 소비 전력 700W 700W 1000W

참고: 여기에 있는 모든 숫자는 희소 행렬 계산의 성능을 나타냅니다.

더 많은 트랜지스터를 포장하는 것만이 아닙니다. FP4 및 FP6 컴퓨팅 기능의 도입으로 모델 성능이 약간 저하되기는 하지만 새로운 수준의 효율적인 모델 교육이 가능해졌습니다. 이러한 절충은 플랫폼의 미묘한 측면으로, 효율성과 정확성 사이의 복잡한 균형을 반영합니다.

Blackwell의 4세대 변압기 엔진은 FP6를 사용할 때 컴퓨팅, 대역폭 및 모델 크기 기능을 향상시켜 AI 개발의 미래에 필수적인 개선 사항을 제공합니다. 또한 PCIe Gen3과 새로운 HBM1.8e 메모리 기술을 통합하면 대역폭이 크게 향상되며, XNUMX세대 NVLink와 결합하면 이전 세대의 대역폭이 XNUMXTB/s로 두 배 증가합니다.

가장 흥미로운 소개 중 하나는 대규모 AI 배포 전반에 걸쳐 안정성, 가용성 및 서비스 가능성을 향상시키는 RAS 엔진입니다. 이러한 혁신은 모델 플롭 활용도를 크게 향상시켜 AI 애플리케이션 확장 시 중요한 과제 중 하나를 해결할 수 있습니다.

Blackwell을 통해 NVIDIA는 업계 최초의 TEE(신뢰할 수 있는 실행 환경)-I/O 지원 GPU를 포함하여 TEE를 CPU를 넘어 GPU로 확장하는 등 새로운 기밀 컴퓨팅 기능을 제공합니다. 이를 통해 생성 AI 교육에 중요한 개인 데이터를 안전하고 빠르게 처리할 수 있습니다. 이러한 혁신은 개인 정보 보호 규정이나 독점 정보를 다루는 산업에 특히 중요합니다. NVIDIA Blackwell의 기밀 컴퓨팅은 성능 저하 없이 비교할 수 없는 보안을 제공하여 암호화되지 않은 모드와 거의 동일한 처리량을 제공합니다. 이러한 발전은 대규모 AI 모델을 보호할 뿐만 아니라 기밀 AI 교육 및 연합 학습을 가능하게 하여 AI의 지적 재산을 보호합니다.

NVIDIA Blackwell의 압축 해제 엔진은 데이터 분석 및 데이터베이스 워크플로우에 있어 획기적인 도약을 의미합니다. 이 엔진은 최대 800GB/s의 놀라운 속도로 데이터의 압축을 해제하여 데이터 분석 성능을 크게 향상시키고 통찰력을 얻는 시간을 단축할 수 있습니다. 8TB/s HBM3e 메모리 및 고속 NVLink-C2C 상호 연결과 협력하여 데이터베이스 쿼리를 가속화하여 쿼리 벤치마크에서 Blackwell을 CPU보다 18배, 이전 NVIDIA GPU보다 6배 더 빠르게 만듭니다. 이 기술은 최신 압축 형식을 지원하고 NVIDIA Blackwell을 데이터 분석 및 과학 분야의 강자로 자리매김하여 엔드투엔드 분석 파이프라인의 속도를 획기적으로 높입니다.

기술적인 경이로움에도 불구하고, LLM 추론 운영 비용과 에너지를 최대 25배까지 줄인다는 NVIDIA의 주장은 특히 상세한 전력 소비 데이터가 부족하다는 점을 고려할 때 눈살을 찌푸리게 합니다. 이 주장은 주목할 만하지만 그 영향을 완전히 측정하기 위해 추가 설명이 필요합니다.

요약하자면, NVIDIA의 Blackwell 플랫폼은 AI와 컴퓨팅에서 가능한 것의 경계를 넓히려는 회사의 끊임없는 추구에 대한 증거입니다. 혁신적인 기술과 야심찬 목표를 통해 Blackwell은 단순한 한 걸음이 아니라 거대한 도약을 이루며 다양한 산업 전반에 걸쳐 다양한 발전을 촉진할 것을 약속합니다. 가속화된 컴퓨팅과 생성적 AI 시대를 더 깊이 파고들면서 NVIDIA의 혁신은 다음 산업 혁명의 촉매제가 될 수 있습니다.

엔비디아 블랙웰 HGX

Blackwell 아키텍처를 수용한 NVIDIA는 HGX 서버와 베이스보드 시리즈를 새롭게 단장했습니다. 이전 모델의 이러한 획기적인 발전은 눈에 띄게 성능을 향상시키는 동시에 총 소유 비용을 줄이는 등 강력한 변화를 가져왔습니다. 비교 결과는 놀랍습니다. FP8과 FP4를 비교하면 성능이 4.5배나 향상됩니다. FP8을 전작과 동일하게 사용해도 성능은 거의 8배가 됩니다. 이것은 단순한 속도에 관한 것이 아닙니다. 총 메모리 대역폭이 XNUMX배나 급증하여 메모리 효율성이 크게 향상되었습니다.

스펙 HGX H100 HGX H200 HGX B100 HGX B200
최대 메모리 640GB HBM3 1.1TB HBM3e 1.5TB HBM3e 1.5TB HBM3e
메모리 대역폭 7.2TB/초 7.2TB/초 8TB/초 8 TB / 초
FP4 - - 112PFLOPS 144PFLOPS
FP6 - - 56PFLOPS 72PFLOPS
FP8/INT8 32PFLOPS/POPS 32PFLOPS/POPS 56PFLOPS/POPS 72PFLOPS/POPS
FP16/BF16 16PFLOPS 16PFLOPS 28PFLOPS 36PFLOPS

NVIDIA Grace-Blackwell 슈퍼칩

Blackwell 플랫폼 무기고의 초석인 GB200에 초점을 맞춰 NVIDIA의 최신 발표의 복잡한 내용을 자세히 살펴보세요. NVIDIA가 지속적으로 고성능 컴퓨팅의 한계를 뛰어넘는 가운데 GB200은 연결성 및 확장성의 전략적 발전과 최첨단 기술을 결합하여 GPU 제품의 중요한 발전을 나타냅니다. GB200에는 200개의 B200 GPU가 있습니다. 이 구성은 GPU와 Grace CPU 간의 일대일 연결을 특징으로 하는 이전 세대의 GH200에서 출발합니다. 이번에는 두 B900 GPU가 모두 2GB/s CXNUMXC(칩 간) 링크를 통해 동일한 Grace CPU에 연결됩니다.

스펙 GH200 GB200
최대 메모리 144GB HBM3e 384GB HBM3e
메모리 대역폭 8TB/초 16TB/s(총계)
FP4 - 40PFLOPS
FP6 - 20PFLOPS
FP8/INT8 3.958PFLOPS/POPS 20PFLOPS
FP16/BF16 1979 TFLOPS 10PFLOPS
TF32 989 TFLOPS 5PFLOPS
FP64 67 TFLOPS 90 TFLOPS
PCIe 레인 4x PCIe 5세대 x16 2x PCIe 6세대 x16
최대 소비 전력 1000W 2700W

# 참고: 여기에 있는 모든 숫자는 희소 행렬 계산의 성능을 나타냅니다.

얼핏 보면 이전 세대의 900GB/s C2C 링크를 유지한다는 결정이 한계처럼 보일 수도 있습니다. 그러나 이 설계 선택은 기존 기술을 활용하는 동시에 새로운 수준의 확장성을 위한 길을 닦는 계산된 전략을 강조합니다. GB200의 아키텍처를 사용하면 576세대 NVLink를 통해 1.8TB/s의 속도로 최대 XNUMX개의 GPU와 통신할 수 있습니다. 이러한 수준의 상호 연결성은 가장 크고 복잡한 AI 모델을 훈련하고 배포하는 데 필요한 대규모 병렬 컴퓨팅 환경을 구축하는 데 중요합니다.

NVIDIA 네트워킹 스택 업데이트

GB200을 NVIDIA의 최신 네트워킹 기술인 Quantum-X800 InfiniBand 및 Spectrum-X800 이더넷 플랫폼과 통합 연결성과 대역폭에 대한 흥미로운 질문을 제기합니다. 800Gb/s 기능에 대한 언급은 NVIDIA가 PCIe Gen6이 가져올 수 있는 이점을 탐색하고 있음을 암시합니다. 

듀얼 GPU 설정과 고급 네트워킹 옵션을 갖춘 GB200 구성은 HPC의 미래에 대한 NVIDIA의 비전을 나타냅니다. 이 비전은 개별 구성 요소의 강력한 성능뿐만 아니라 이러한 구성 요소가 일관되고 확장 가능한 시스템에서 어떻게 조율될 수 있는지에 관한 것입니다. NVIDIA는 더 높은 수준의 상호 연결성을 지원하고 컴퓨팅 성능과 데이터 전송 속도 사이의 균형을 유지함으로써 AI 연구 및 개발, 특히 기하급수적으로 증가하는 모델 크기와 컴퓨팅 요구 사항을 처리하는 데 있어 가장 중요한 과제 중 일부를 해결합니다.

NVIDIA 5세대 NVLink 및 NVLink 스위치

5세대 NVLink는 고성능 컴퓨팅 및 AI 분야에서 중요한 이정표를 세웠습니다. 이 기술은 빠르게 진화하는 AI 기반 모델의 수요에 중요한 측면인 GPU 간의 연결 및 통신 능력을 향상시킵니다.

576세대 NVLink는 GPU 연결 용량을 이전 제한인 256 GPU에서 크게 증가한 XNUMX GPU로 늘립니다. 이번 확장은 이전 제품에 비해 대역폭이 두 배로 늘어나 점점 더 복잡해지는 기본 AI 모델의 성능이 크게 향상되었습니다.

각 Blackwell GPU 링크는 Hopper GPU와 유사한 두 개의 고속 차동 쌍을 자랑하지만 각 방향에서 링크당 50GB/초의 유효 대역폭을 달성합니다. 이 GPU에는 18개의 1.8세대 NVLink 링크가 장착되어 14TB/s의 놀라운 총 대역폭을 제공합니다. 이 처리량은 현재 PCIe Gen 5보다 XNUMX배 이상 높습니다.

또 다른 주목할만한 기능은 모델 병렬성에 중요한 단일 130 GPU NVLink 도메인(NVL72)에서 72TB/s GPU 대역폭을 지원하는 NVIDIA NVLink 스위치입니다. 또한 이 스위치는 새로운 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) FP8 지원을 통해 대역폭 효율성을 XNUMX배 향상시킵니다.

또한 NVIDIA UFM(Unified Fabric Manager)은 NVLink 컴퓨팅 패브릭에 강력하고 입증된 관리 기능을 제공하여 NVLink 스위치를 보완합니다.

랙의 엑사스케일 컴퓨팅

이전 모델인 GraceHopper GH200 NVL32가 구축한 강력한 기반을 바탕으로 구축된 DGX GB200 NVL72는 단순한 업그레이드가 아닙니다. 이는 컴퓨팅 성능과 효율성 측면에서 가능한 범위를 확장하는 초석이 되는 발전입니다. DGX GB200 NVL72 플랫폼은 전반적으로 놀라운 발전을 보여줍니다. 각 DGX GB200 NVL72 시스템은 각각 18x GB200으로 구성된 2x GB200 SuperChip 노드로 구성됩니다.

이 플랫폼은 GPU 수를 32개에서 72개로 두 배 이상 늘리고 CPU를 32개에서 36개로 약간 늘립니다. 그러나 메모리의 도약은 19.5TB에서 인상적인 30TB로 뛰어납니다. 이 확장은 단지 더 중요한 숫자에 관한 것이 아닙니다. 특히 가장 복잡한 AI 모델과 시뮬레이션을 처리하는 데 있어서 새로운 수준의 컴퓨팅 기능을 구현하는 것입니다.

가장 놀라운 업그레이드 중 하나는 컴퓨팅 성능의 도약입니다. FP127 성능을 비교할 때 플랫폼은 1.4PetaFLOPS에서 4ExaFLOPS로 점프하여 약 11배 증가합니다. 이 비교는 특히 AI와 기계 학습 분야에서 정밀도와 속도의 경계를 넓히려는 NVIDIA의 헌신을 보여줍니다. 그러나 FP8과 FP8을 비교해도 플랫폼은 5.6PF에서 127PF로 720배 증가하여 효율성과 컴퓨팅 성능이 크게 향상되었습니다.

완전한 수냉식 시스템을 유지하려는 노력은 지속 가능성과 성능 최적화에 대한 NVIDIA의 초점을 반영합니다. 이러한 접근 방식은 시스템의 운영 효율성을 향상시키고 보다 환경 친화적인 데이터 센터 기술을 지향하는 광범위한 업계 동향에 부합합니다.

NVIDIA GB200 Grace Blackwell Superchips로 구동되는 NVIDIA DGX SuperPOD

NVIDIA는 또한 8개의 NVIDIA GB200 NVL72 Grace Blackwell 시스템을 탑재한 차세대 AI 슈퍼컴퓨터인 DGX SuperPOD를 발표했습니다. 이 강력한 설정은 수냉식 랙 규모 아키텍처 전반에 걸쳐 FP11.5 정밀도로 4엑사플롭의 AI 슈퍼컴퓨팅 성능을 자랑하는 200억 매개변수 모델을 처리하도록 설계되었습니다. 각 GB72 NVL36 시스템에는 200개의 NVIDIA GB30 Superchip이 포함되어 있어 대규모 언어 모델 추론 워크로드에 대해 이전 H100보다 XNUMX배 향상된 성능을 약속합니다. 

NVIDIA의 CEO인 Jensen Huang에 따르면 DGX SuperPOD는 "AI 산업 혁명의 공장"이 되는 것을 목표로 합니다.

dgx gb200 노드

양자 시뮬레이션 클라우드

NVIDIA는 또한 연구자들이 다양한 과학 영역에서 양자 컴퓨팅을 탐색할 수 있도록 지원하는 Quantum Simulation Cloud 서비스를 공개했습니다. 오픈 소스 CUDA-Q 플랫폼을 기반으로 하는 이 서비스는 양자 알고리즘과 애플리케이션을 구축하고 테스트하기 위한 강력한 도구와 통합을 제공합니다. 토론토 대학, Classiq, QC Ware 등의 기업과의 협력은 양자 컴퓨팅 혁신을 가속화하려는 NVIDIA의 노력을 강조합니다.

NVIDIA NIM 소프트웨어 스택

또 다른 중요한 발표는 수십 개의 엔터프라이즈급 생성 AI 마이크로서비스를 제공하는 NVIDIA NIM 소프트웨어 스택 출시였습니다. 이러한 서비스를 통해 기업은 플랫폼에서 맞춤형 애플리케이션을 생성 및 배포하고, 인기 있는 AI 모델에 대한 추론을 최적화하고, 광범위한 애플리케이션에 대한 NVIDIA CUDA-X 마이크로서비스 개발을 강화할 수 있습니다. Jensen Huang은 업계 전반의 기업을 AI 기반 엔터티로 변화시키는 이러한 마이크로서비스의 잠재력을 강조했습니다.

OVX 컴퓨팅 시스템

다양한 산업 분야에서 생성 AI의 급속한 성장에 대응하여 NVIDIA는 복잡한 AI 및 그래픽 집약적인 워크로드를 간소화하도록 설계된 솔루션인 OVX 컴퓨팅 시스템을 출시했습니다. AI 배포에서 고성능 스토리지의 중요한 역할을 인식한 NVIDIA는 DDN, 델 파워스케일, NetApp, 퓨어스토리지, WEKA.

새로운 프로그램은 파트너가 스토리지 어플라이언스를 검증하는 프로세스를 표준화하여 엔터프라이즈 AI 워크로드에 대한 최적의 성능과 확장성을 보장합니다. 엄격한 NVIDIA 테스트를 통해 이러한 스토리지 시스템은 AI 애플리케이션의 까다로운 요구 사항을 반영하여 다양한 매개변수에 대해 검증되었습니다.

또한 NVIDIA L40S GPU로 구동되고 포괄적인 소프트웨어 및 네트워킹 솔루션과 통합된 NVIDIA 인증 OVX 서버는 다양한 데이터 센터 환경에 적합한 유연한 아키텍처를 제공합니다. 이 접근 방식은 데이터가 있는 컴퓨팅을 가속화할 뿐만 아니라 생성 AI의 고유한 요구 사항을 충족하여 효율성과 비용 효율성을 보장합니다. NVIDIA OVX 서버에는 강력한 GPU가 탑재되어 향상된 컴퓨팅 기능, 고속 스토리지 액세스 및 짧은 지연 시간의 네트워킹을 제공합니다. 이는 광범위한 데이터 처리가 필요한 챗봇 및 검색 도구와 같은 까다로운 애플리케이션에 특히 중요합니다.

현재 GIGABYTE, Hewlett Packard Enterprise, Lenovo, Supermicro와 같은 글로벌 공급업체에서 제공하고 있는 NVIDIA 인증 OVX 서버는 복잡한 AI 워크로드 처리, 엔터프라이즈급 성능, 보안 및 확장성을 약속하는 데 있어서 큰 도약을 나타냅니다.

생각을 폐쇄

또한 자동차, 로봇공학, 헬스케어, 생성 AI 분야에서도 발표가 있었습니다. 이러한 모든 발표는 NVIDIA의 끊임없는 혁신 추구를 보여주며, 여러 영역에 걸쳐 AI와 컴퓨팅의 미래를 주도할 고급 도구와 플랫폼을 제공합니다. 이들 모두는 매우 기술적이며 특히 양자 컴퓨팅 및 소프트웨어 릴리스의 경우 많은 복잡성을 가지고 있습니다. 각 새 릴리스에 대한 추가 정보를 얻으면 발표 내용에 대한 분석을 계속 지켜봐 주시기 바랍니다.

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드