홈페이지 EnterpriseAI Intel Habana Gaudi2 가속기는 대규모 언어 모델을 위한 NVIDIA 대안을 제공합니다.

Intel Habana Gaudi2 가속기는 대규모 언어 모델을 위한 NVIDIA 대안을 제공합니다.

by 조던 라누스
인텔 하바나 가우디2

회사의 보도 자료에 따르면 Intel Habana Gaudi2 딥 러닝 가속기와 4세대 Intel Xeon Scalable 프로세서는 MLPerf Training 3.0 벤치마크에서 인상적인 결과를 보여주었습니다. MLCommons에서 발표한 벤치마크는 AI 성능에 대해 널리 인정받는 업계 표준입니다.

회사의 보도 자료에 따르면 Intel Habana Gaudi2 딥 러닝 가속기와 4세대 Intel Xeon Scalable 프로세서는 MLPerf Training 3.0 벤치마크에서 인상적인 결과를 보여주었습니다. MLCommons에서 발표한 벤치마크는 AI 성능에 대해 널리 인정받는 업계 표준입니다.

결과는 생성 AI 및 대규모 언어 모델(LLM)이 NVIDIA GPU에서만 실행될 수 있다는 일반적인 업계 내러티브에 도전합니다. 인텔의 AI 솔루션 포트폴리오는 효율성과 확장성을 제한하는 폐쇄형 에코시스템에서 벗어나고자 하는 고객에게 경쟁력 있는 대안을 제공합니다.

인텔 하바나 가우디2

사진은 Habana Gaudi2 메자닌 카드를 보여줍니다. 10년 2022월 2일, AI 딥 러닝 프로세서 기술에 중점을 둔 인텔의 데이터 센터 팀인 Habana Labs는 훈련 및 추론을 위한 XNUMX세대 딥 러닝 프로세서인 Habana GaudiXNUMX 및 Habana Greco를 출시했습니다. (제공: 인텔사)

MLPerf란 무엇입니까?

The MLPerf 교육 3.0 벤치마크 제품군은 서로 다른 시스템이 지정된 품질 메트릭을 충족하도록 모델을 훈련할 수 있는 속도를 측정합니다. 벤치마크는 비전, 언어 및 상업을 포함한 다양한 영역을 다루고 다양한 데이터 세트 및 품질 목표를 사용합니다.

벤치마크 세부정보

지역 기준 데이터 세트 품질 목표 참조 구현 모델
비전 이미지 분류 IMAGEnet 75.90% 분류 ResNet-50 v1.5
비전 이미지 세분화(의료) 키트19 0.908 평균 DICE 점수 3D U-넷
비전 물체 감지(경량) 이미지 열기 34.0% 맵 레티 나넷
비전 물체 감지(무거운 무게) COCO 0.377 박스 최소 AP 및 0.339 마스크 최소 AP 마스크 R-CNN
지원하는 언어 음성 인식 리브리스피치 0.058 워드 오류율 RNN-T
지원하는 언어 NLP 위키백과 2020/01/01 0.72 마스크-LM 정확도 BERT-대형
지원하는 언어 LLM C4 2.69 로그 당혹감 GPT3
상업 추천 크리테오 4TB 멀티 핫 0.8032AUC DLRM-dcnv2

시야에서 벤치마크에는 75.90% 분류 정확도의 품질 목표로 ImageNet 데이터 세트를 사용한 이미지 분류가 포함됩니다. 이 작업의 참조 모델은 ResNet-50 v1.5입니다. 다른 비전 벤치마크에는 KiTS19 의료 데이터 세트를 사용하는 이미지 분할과 Open Images 및 COCO 데이터 세트를 사용하는 물체 감지가 포함됩니다.

언어 작업의 경우 벤치마크에는 0.058 단어 오류율의 품질 목표로 LibriSpeech 데이터 세트를 사용한 음성 인식이 포함됩니다. 이 작업의 참조 모델은 RNN-T입니다. 다른 언어 벤치마크에는 Wikipedia 2020/01/01 데이터 세트를 사용하는 자연어 처리(NLP)와 C4 데이터 세트를 사용하는 대규모 언어 모델(LLM) 교육이 포함됩니다.

상거래 영역에서 벤치마크는 품질 목표가 4 AUC인 Criteo 0.8032TB 멀티 핫 데이터 세트를 사용하는 추천 작업입니다. 이 작업의 참조 모델은 DLRM-dcnv2입니다.

측정 지표

벤치마크 제품군은 지정된 품질 목표에 도달하기 위해 특정 데이터 세트에서 모델을 교육하는 시간을 측정합니다. 기계 학습 교육 시간의 고유한 가변성으로 인해 최종 결과는 벤치마크를 여러 번 실행하고 가장 높은 결과와 가장 낮은 결과를 버린 다음 나머지 결과의 평균을 구하여 얻습니다. 그럼에도 불구하고 이미징 벤치마크 결과의 편차는 대략 +/- 2.5%이고 다른 벤치마크의 편차는 약 +/- 5%인 등 결과에 약간의 차이가 있습니다.

벤치마크 부문

MLPerf는 참가자가 참조 구현을 다시 구현할 수 있도록 하여 소프트웨어 및 하드웨어의 혁신을 장려합니다. MLPerf에는 Closed 및 Open이라는 두 가지 부서가 있습니다. Closed 디비전은 하드웨어 플랫폼 또는 소프트웨어 프레임워크를 직접 비교하도록 설계되었으며 동일한 모델 및 옵티마이저를 참조 구현으로 사용해야 합니다. 반면에 Open 부서는 더 빠른 모델과 옵티마이저의 개발을 장려하고 모든 머신 러닝 접근 방식이 목표 품질을 달성할 수 있도록 합니다.

시스템 가용성

MLPerf는 시스템 가용성에 따라 벤치마크 결과를 분류합니다. "사용 가능"으로 분류된 시스템은 클라우드에서 구매하거나 대여할 수 있는 구성 요소로만 구성됩니다. "미리보기" 시스템은 다음 제출 라운드에서 사용할 수 있을 것으로 예상됩니다. 마지막으로 "RDI(연구, 개발 또는 내부)"로 분류된 시스템에는 실험적, 개발 중 또는 내부용 하드웨어 또는 소프트웨어가 포함되어 있습니다.

Intel Habana Guadi2 등장

특히 가우디2 딥러닝 가속기는 강력한 성능을 보였다. 성능 대규모 언어 모델인 GPT-3에서 GPT-3의 LLM 교육을 위한 성능 결과를 제출하는 단 두 개의 반도체 솔루션 중 하나입니다. Gaudi2는 또한 서버 및 시스템 비용 면에서 상당한 비용 이점을 제공하므로 NVIDIA의 H100에 대한 매력적인 가격 대비 성능 대안이 됩니다.

Intel AI 엔진이 탑재된 4세대 Xeon 프로세서는 고객이 데이터 사전 처리, 모델 교육 및 배포를 위한 범용 AI 시스템을 구축하여 AI 성능, 효율성, 정확성 및 확장성을 제공할 수 있음을 입증했습니다.

Gaudi2는 GPT-3에서 311개의 가속기에서 384분을 달성하고 GPT-95 모델에서 256에서 384개의 가속기로 거의 선형에 가까운 3% 확장을 달성하여 GPT-XNUMX에서 인상적인 훈련 시간을 제공했습니다. 컴퓨터 비전과 자연어 처리 모델에서도 우수한 학습 결과를 보였다. 그만큼 가우디2 결과 즉, 고객은 온프레미스 또는 클라우드에서 Gaudi2를 구현할 때 비슷한 성능 결과를 기대할 수 있습니다.

4세대 Xeon 프로세서는 수많은 대체 솔루션 중 유일한 CPU 제출로서 Intel Xeon 프로세서가 전용 AI 도입의 비용과 복잡성을 피하면서 범용 시스템에 AI를 배포할 수 있는 즉시 사용 가능한 기능을 기업에 제공한다는 것을 입증했습니다. 시스템.

Habana Gaudi2 8노드 클러스터

Wikipedia 데이터 세트와 BERT-large 모델을 사용하는 자연어 처리(NLP) 작업에서 Gaudi2는 2.103개의 가속기로 64분의 훈련 시간을 달성했습니다.

KiTS19 데이터 세트와 3D ​​U-Net 모델을 사용한 이미지 분할(의료) 작업에서 Gaudi2는 16.460개의 가속기를 사용하여 TensorFlow로 20.516분, PyTorch로 XNUMX분의 훈련 시간을 달성했습니다.

Criteo 4TB 데이터 세트와 DLRM-dcnv2 모델을 사용하는 추천 작업에서 Gaudi2는 PyTorch로 14.794분, TensorFlow로 14.116분의 훈련 시간을 달성했으며 둘 다 XNUMX개의 가속기를 사용했습니다.

폐쇄형 부문에서 4세대 Xeons는 BERT 및 ResNet-50 모델을 각각 50분 미만 및 90분 미만으로 교육할 수 있습니다. 개방형 부문에서 BERT를 사용하여 Xeon은 30개 노드로 확장할 때 약 16분 만에 모델을 교육했습니다.

이러한 결과는 인텔 oneAPI 기반의 오픈 소스 인텔 이더넷 패브릭 제품군 소프트웨어를 활용하는 비용 효율적이고 쉽게 사용할 수 있는 인텔 이더넷 800 시리즈 네트워크 어댑터를 사용하여 가능한 뛰어난 확장 효율성을 강조합니다.

시장 영향

MLPerf Training 2 벤치마크의 Intel Habana Gaudi3.0 결과는 데이터 센터에서 인텔리전트 에지에 이르기까지 광범위한 애플리케이션을 위한 경쟁력 있고 효율적인 AI 솔루션을 제공하려는 회사의 노력을 강조합니다. NVIDIA는 분명히 이 점에서 클럽하우스 리더이며, 모든 서버 공급업체는 AI 워크로드를 처리할 준비가 된 GPU가 많은 다양한 제품을 업계에 보여주기 위해 노력하고 있습니다. 그러나 이 데이터는 AI가 만능 범주가 아니며 인텔이 업계 선택권을 제공하기 위해 제 역할을 다하고 있음을 재확인합니다. 더 많은 경쟁과 선택이 일반적으로 매우 좋은 것이기 때문에 최종 결과는 AI를 배포하는 조직의 승리입니다.

하바나 가우디2

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드