홈페이지 Enterprise META, AI 혁신을 촉진하기 위해 24,576개의 GPU 데이터 센터 규모 클러스터 공개

META, AI 혁신을 촉진하기 위해 24,576개의 GPU 데이터 센터 규모 클러스터 공개

by 해롤드 프리츠

메타는 AI 기술 고도화에 필수적인 하드웨어 인프라에 대한 전략적 투자를 통해 AI 혁신을 이어가고 있습니다. 이 회사는 최근 Llama 24,576 개발을 포함하여 차세대 AI 모델을 추진하는 데 중요한 3 GPU 데이터 센터 규모 클러스터의 두 가지 반복에 대한 세부 정보를 공개했습니다.

메타는 AI 기술 고도화에 필수적인 하드웨어 인프라에 대한 전략적 투자를 통해 AI 혁신을 이어가고 있습니다. 회사는 최근 Llama 24,576 개발을 포함하여 차세대 AI 모델을 추진하는 데 중요한 3-GPU 데이터 센터 규모 클러스터의 두 가지 반복에 대한 세부 정보를 공개했습니다. 이 이니셔티브는 개방적이고 책임감 있게 구축하려는 Meta의 비전의 기초입니다. 누구나 접근할 수 있는 인공일반지능(AGI).

사진 제공: 메타엔지니어링

지속적인 여정에서 Meta는 2022년에 처음 공개된 RSC(AI Research SuperCluster)를 16,000개의 NVIDIA A100 GPU로 개선했습니다. RSC는 개방형 AI 연구를 발전시키고 컴퓨터 비전, 자연어 처리(NLP), 음성 인식 등 다양한 영역에 걸친 응용 프로그램을 통해 정교한 AI 모델 생성을 촉진하는 데 중추적인 역할을 해왔습니다.

RSC의 성공을 바탕으로 Meta의 새로운 AI 클러스터는 연구원 및 개발자 경험 최적화에 중점을 두고 엔드투엔드 AI 시스템 개발을 강화합니다. 이러한 클러스터는 24,576개의 NVIDIA Tensor Core H100 GPU를 통합하고 고성능 네트워크 패브릭을 활용하여 이전보다 더 복잡한 모델을 지원함으로써 GenAI 제품 개발 및 연구에 대한 새로운 표준을 설정합니다.

Meta의 인프라는 고도로 발전되고 적응력이 뛰어나 매일 수백조 건의 AI 모델 실행을 처리합니다. 하드웨어 및 네트워크 패브릭의 맞춤형 설계는 효율적인 데이터 센터 운영을 유지하면서 AI 연구자를 위한 최적화된 성능을 보장합니다.

통합 이더넷(RoCE)을 통한 RDMA(Remote Direct Memory Access) 클러스터와 2Gbps 상호 연결이 가능한 NVIDIA Quantum400 InfiniBand 패브릭을 갖춘 클러스터를 포함한 혁신적인 네트워킹 솔루션이 구현되었습니다. 이러한 기술은 미래의 대규모 AI 클러스터 설계에 중요한 확장성과 성능 통찰력을 제공합니다.

OCP 2022에서 Grand Teton이 소개되었습니다.

자체 설계한 개방형 GPU 하드웨어 플랫폼인 Meta의 Grand Teton은 OCP(Open Compute Project)에 기여하고 수년간의 AI 시스템 개발을 구현합니다. 전력, 제어, 컴퓨팅 및 패브릭 인터페이스를 응집력 있는 단위로 병합하여 데이터 센터 환경 내에서 신속한 배포와 확장을 촉진합니다.

AI 교육에서 종종 과소 논의되지만 스토리지의 중요한 역할을 해결하기 위해 Meta는 'Tectonic' 분산 스토리지 솔루션의 최적화된 버전이 지원하는 맞춤형 Linux Filesystem in Userspace(FUSE) API를 구현했습니다. 공동 개발된 Hammerspace 병렬 네트워크 파일 시스템(NFS)과 결합된 이 설정은 다중 모드 AI 훈련 작업의 방대한 데이터 수요를 처리하는 데 필수적인 확장 가능하고 처리량이 높은 스토리지 솔루션을 제공합니다.

Tectonic 및 Hammerspace 솔루션이 지원되는 Meta의 YV3 Sierra Point 서버 플랫폼은 성능, 효율성 및 확장성에 대한 회사의 헌신을 강조합니다. 이러한 예측을 통해 스토리지 인프라는 현재 수요를 충족하고 미래 AI 이니셔티브의 급증하는 요구 사항을 수용할 수 있도록 확장할 수 있습니다.

AI 시스템이 복잡해짐에 따라 Meta는 하드웨어 및 소프트웨어 분야에서 오픈 소스 혁신을 계속하여 OCP 및 PyTorch에 크게 기여함으로써 AI 연구 커뮤니티 내에서 공동 발전을 촉진합니다.

이러한 AI 훈련 클러스터의 설계는 350,000년 말까지 100개의 NVIDIA H2024 GPU를 통합하려는 야망으로 인프라를 확장하는 것을 목표로 하는 Meta의 로드맵에 필수적입니다. 이 궤적은 인프라 개발에 대한 Meta의 적극적인 접근 방식을 강조하며, 역동적인 수요를 충족할 준비가 되어 있습니다. 미래의 AI 연구 및 응용.

메타엔지니어링 블로그

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드