올해 초 Intel은 Intel Habana Gaudi2와 GPU 시장 선두업체인 NVIDIA 간의 성능 결과를 발표하여 AI에 대한 Intel의 의지를 보여주고 AI가 모든 범주에 적용되는 것이 아님을 입증했습니다. 동시에 Intel AI 연구원과 Microsoft Research의 공동 개발을 통해 최첨단 비전 언어 작업을 제공하는 사전 훈련된 다중 모드 변환기인 BridgeTower가 탄생했습니다. Hugging Face는 이 모델을 기계 학습용 오픈 소스 라이브러리에 통합했습니다.
올해 초 Intel은 Intel Habana Gaudi2와 GPU 시장 선두업체인 NVIDIA 간의 성능 결과를 발표하여 AI에 대한 Intel의 의지를 보여주고 AI가 모든 범주에 적용되는 것이 아님을 입증했습니다. 동시에 Intel AI 연구원과 Microsoft Research의 공동 개발을 통해 최첨단 비전 언어 작업을 제공하는 사전 훈련된 다중 모드 변환기인 BridgeTower가 탄생했습니다. Hugging Face는 이 모델을 기계 학습용 오픈 소스 라이브러리에 통합했습니다.
Habana Gaudi2 메자닌 카드(제공: Intel Corporation)
Hugging Face는 자사 웹사이트의 블로그 게시물에 원본 벤치마크 결과를 게시하고 Habana Gaudi2 및 NVIDIA의 H100 GPU에 대한 AI 훈련 성능 벤치마크 결과를 업데이트했습니다. 해당 벤치마크 결과에 따르면 Gaudi2는 멀티모달 변압기 BridgeTower 모델을 얻는 데 있어 H100보다 성능이 뛰어났지만 Gaudi2는 다음을 사용하여 HXNUMX을 능가했습니다. 옵티멈 하바나, A2.5보다 100배 향상된 성능을 달성했습니다. 결과는 AI 분야뿐만 아니라 비전 언어 교육에서도 Gaudi2의 위치를 입증했습니다.
Optimum Habana는 Transformers 및 Diffusers 라이브러리와 Habana의 Gaudi 프로세서(HPU) 간의 인터페이스입니다. 다양한 다운스트림 작업을 위한 단일 및 다중 HPU 설정에서 모델을 쉽게 로드하고 훈련하고 추론할 수 있는 도구를 제공합니다.
브리지타워 배경
비전 언어 모델은 단일 모달 인코더를 사용하여 데이터 표현을 획득합니다. 그런 다음 데이터는 결합되거나 크로스모달 인코더에 입력됩니다. BridgeTower는 유니모달 인코더의 최상위 레이어를 크로스모달 인코더의 모든 레이어에 연결하는 고유한 브리지 레이어로 차별화되어 다양한 수준에서 시각적 및 텍스트 데이터를 효율적으로 조합할 수 있습니다.
단 4만 개의 이미지로 훈련된 BridgeTower는 VQAv78.73(Visual Question Answering) 테스트에서 2%의 정확도를 제공하여 새로운 성능 표준을 설정했습니다. 이는 기존 최고 모델을 1.09% 앞선다. 확장하면 모델의 정확도가 81.15%로 훨씬 더 높아져 훨씬 더 큰 데이터 세트에서 훈련된 모델보다 우수합니다.
최상위 비전 언어 모델인 BridgeTower의 성능은 특수 하드웨어를 사용하여 데이터를 빠르게 로드하는 기능에 기인합니다. 이러한 빠른 데이터 로딩 방법은 종종 데이터 로딩 문제에 직면하는 비전 모델에 유용합니다.
하드웨어 통찰력
업데이트된 벤치마크 테스트는 NVIDIA 및 Habana Labs의 최신 하드웨어 및 소프트웨어를 기반으로 했습니다. NVIDIA H100 Tensor Core GPU는 특수 실행을 위한 Transformer Engine과 80GB 메모리를 갖춘 INVIDIA의 가장 빠른 최신 GPU입니다. Tensor Core 기술의 세 번째 반복을 사용하는 Nvidia A100 Tensor Core GPU는 80GB보다 뛰어난 속도를 제공하는 40GB 메모리를 통해 클라우드 제공업체 전반에서 널리 사용할 수 있습니다.
Habana Labs Habana Gaudi2는 Habana Labs의 8세대 AI 하드웨어로 각각 96GB 메모리를 갖춘 최대 XNUMX개의 HPU를 수용할 수 있습니다. 사용자 친화적인 기능을 갖춘 것으로 알려져 있으며 Optimum Habana와 결합되어 Transformers 기반 코드를 Gaudi로 더 쉽게 전송할 수 있습니다.
벤치마킹 세부정보
테스트에는 866억 48만 개의 매개변수를 사용하여 BridgeTower 모델을 미세 조정하고 여러 데이터 세트에 대한 다양한 기술을 사용하여 영어로 교육하는 작업이 포함되었습니다. 다음 단계에는 New Yorker Caption Contest 데이터 세트를 사용하여 추가로 세부 조정하는 작업이 포함되었습니다. 일관된 결과를 위해 모든 플랫폼은 동일한 설정을 사용하고 각각 XNUMX개 샘플의 배치를 처리했습니다.
이러한 실험의 과제는 시간이 많이 걸리는 이미지 데이터 로딩입니다. 최적으로 원시 데이터는 디코딩을 위해 장치로 직접 전송되어야 합니다. 이제 초점은 이 데이터 로딩 프로세스를 최적화하는 것으로 옮겨졌습니다.
데이터 로딩 최적화
CPU에 이미지를 더 빠르게 로드하려면 하위 프로세스를 늘리는 것이 도움이 될 수 있습니다. Transformers의 TrainingArguments를 사용하면 dataloader_num_workers=N 인수가 데이터 로드를 위한 CPU 하위 프로세스 수를 설정할 수 있습니다. 기본 설정은 0입니다. 즉, 기본 프로세스에서 데이터를 로드하지만 이는 효율적이지 않을 수 있습니다. 이를 늘리면 속도가 향상되지만 RAM 소비도 늘어납니다. 권장 설정은 CPU 코어 수입니다. 그러나 최적의 구성을 결정하려면 먼저 실험을 해보는 것이 가장 좋습니다.
이 벤치마크에는 세 가지 개별 실행이 있었습니다.
- 데이터 로드가 다른 작업과 동일한 프로세스를 공유하는 0개 장치에서 혼합 정밀도가 실행됩니다(dataloader_num_workers=XNUMX).
- 유사한 실행이지만 데이터 로드를 위한 전용 하위 프로세스가 있습니다(dataloader_num_workers=1).
- 설정은 동일하지만 두 개의 전용 하위 프로세스가 있습니다(dataloader_num_workers=2).
Optimum Habana를 통한 하드웨어 가속 데이터 로딩
속도를 더욱 높이려면 Habana의 미디어 파이프라인을 사용하여 데이터 로딩 작업을 CPU에서 Gaudi2의 HPU 또는 A100/H100의 GPU와 같은 가속기 장치로 전환하세요. CPU에서 이미지를 완전히 처리하는 대신 인코딩된 이미지를 장치로 직접 전송하여 디코딩 및 확대할 수 있습니다. 이 접근 방식은 장치 컴퓨팅 성능을 최대화하지만 장치 메모리 소비가 증가할 수 있습니다.
이미지를 사용하여 교육 워크플로를 향상시키는 두 가지 효과적인 방법은 더 많은 데이터로더 리소스를 할당하고 이미지 처리에 가속기 장치를 사용하는 것입니다. BridgeTower와 같은 고급 비전 언어 모델을 훈련할 때 이러한 최적화를 통해 Optimum Habana가 포함된 Habana Gaudi2는 NVIDIA 제품보다 훨씬 더 빠릅니다. Habana Gaudi2는 사용자 친화적이며 몇 가지 추가 교육 인수만 필요합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드