首頁 EnterpriseAI 英特爾 Habana Gaudi2 加速器為大型語言模型提供 NVIDIA 替代方案

英特爾 Habana Gaudi2 加速器為大型語言模型提供 NVIDIA 替代方案

by 喬丹拉努斯
英特爾 Habana Gaudi2

據該公司發布的新聞稿稱,英特爾 Habana Gaudi2 深度學習加速器和第四代英特爾至強可擴展處理器在 MLPerf Training 4 基準測試中展示了令人印象深刻的結果。 該基準由 MLCommons 發布,是廣泛認可的人工智能性能行業標準。

據該公司發布的新聞稿稱,英特爾 Habana Gaudi2 深度學習加速器和第四代英特爾至強可擴展處理器在 MLPerf Training 4 基準測試中展示了令人印象深刻的結果。 該基準由 MLCommons 發布,是廣泛認可的人工智能性能行業標準。

結果挑戰了業界盛行的說法,即生成式 AI 和大型語言模型 (LLM) 只能在 NVIDIA GPU 上運行。 英特爾的人工智能解決方案組合為尋求擺脫限制效率和可擴展性的封閉生態系統的客戶提供了有競爭力的替代方案。

英特爾 Habana Gaudi2

照片顯示 Habana Gaudi2 夾層卡。 10年2022月2日,專注於AI深度學習處理器技術的英特爾數據中心團隊Habana Labs推出了第二代用於訓練和推理的深度學習處理器:Habana GaudiXNUMX和Habana Greco。 (來源:英特爾公司)

什麼是 MLPerf?

MLPerf 訓練 3.0 基準套件衡量不同系統訓練模型以滿足指定質量指標的速度。 這些基準涵蓋視覺、語言和商業等各個領域,並使用不同的數據集和質量目標。

基準細節

面積 基準 數據集 質量目標 參考實施模型
願景 圖像分類 影像網 75.90% 分類 ResNet-50 v1.5
願景 圖像分割(醫學) 基特斯19 0.908 平均 DICE 分數 3D U 網
願景 物體檢測(輕量級) 打開圖像 34.0% 地圖 視網膜網
願景 物體檢測(重量級) COCO 0.377 Box min AP 和 0.339 Mask min AP 面具R-CNN
語言 語音識別 圖書館演講 0.058 字錯誤率 RNN-T
語言 NLP 維基百科 2020/01/01 0.72 Mask-LM 精度 BERT-大
語言 LLM C4 2.69 對數困惑度 GPT3
商業率 推薦 Criteo 4TB 多熱 0.8032澳元 DLRM-dcv2

在視覺領域,基準測試包括使用 ImageNet 數據集進行圖像分類,質量目標為 75.90% 的分類準確率。 該任務的參考模型是ResNet-50 v1.5。 其他視覺基準包括使用 KiTS19 醫學數據集的圖像分割以及使用 Open Images 和 COCO 數據集的對象檢測。

對於語言任務,基準測試包括使用 LibriSpeech 數據集進行語音識別,質量目標為 0.058 字錯誤率。 該任務的參考模型是 RNN-T。 其他語言基準包括使用維基百科 2020/01/01 數據集的自然語言處理 (NLP) 和使用 C4 數據集的大語言模型 (LLM) 訓練。

在商業領域,基準測試是使用 Criteo 4TB 多熱數據集的推薦任務,質量目標為 0.8032 AUC。 此任務的參考模型是 DLRM-dcnv2。

測量指標

基準套件測量在特定數據集上訓練模型以達到指定質量目標的時間。 由於機器學習訓練時間固有的可變性,最終結果是通過多次運行基準測試、丟棄最高和最低結果,然後對剩餘結果取平均值來獲得的。 儘管如此,結果仍然存在一些差異,成像基準測試結果有大約 +/- 2.5% 的差異,其他基準測試有大約 +/- 5% 的差異。

基準部門

MLPerf 通過允許參與者重新實現參考實現來鼓勵軟件和硬件創新。 MLPerf 中有兩個部分:封閉部分和開放部分。 封閉劃分旨在直接比較硬件平台或軟件框架,並需要使用與參考實現相同的模型和優化器。 另一方面,開放部門鼓勵開發更快的模型和優化器,並允許任何機器學習方法實現目標質量。

系統可用性

MLPerf 根據系統可用性對基準測試結果進行分類。 分類為“可用”的系統僅包含可在雲中購買或租用的組件。 “預覽”系統預計將在下一輪提交中提供。 最後,分類為“研究、開發或內部 (RDI)”的系統包含實驗性、開發中或供內部使用的硬件或軟件。

英特爾 Habana Guadi2 亮相

尤其是Gaudi2深度學習加速器,表現出了強大的 性能 基於大型語言模型 GPT-3,使其成為僅有的兩個提交 GPT-3 LLM 訓練性能結果的半導體解決方案之一。 Gaudi2 還在服務器和系統成本方面提供了顯著的成本優勢,使其成為 NVIDIA H100 的極具性價比的替代品。

搭載英特爾人工智能引擎的第四代至強處理器證明,客戶可以構建通用人工智能係統,用於數據預處理、模型訓練和部署,提供人工智能性能、效率、準確性和可擴展性。

Gaudi2 在 GPT-3 上的訓練時間令人印象深刻,在 311 個加速器上達到了 384 分鐘,在 GPT-95 模型上從 256 個加速器到 384 個加速器實現了近線性 3% 的擴展。 它還在計算機視覺和自然語言處理模型方面表現出了出色的訓練結果。 這 高迪2結果 提交時“開箱即用”,這意味著客戶在本地或云端實施 Gaudi2 時可以獲得可比較的性能結果。

第四代至強處理器作為眾多替代解決方案中唯一提交的CPU,證明英特爾至強處理器為企業提供了在通用系統上部署人工智能的開箱即用功能,避免了引入專用人工智能的成本和復雜性系統。

Habana Gaudi2 8 節點集群

在使用維基百科數據集和 BERT-large 模型的自然語言處理(NLP)任務中,Gaudi2 使用 2.103 個加速器實現了 64 分鐘的訓練時間。

在使用 KiTS19 數據集和 3D U-Net 模型的圖像分割(醫學)任務中,Gaudi2 使用 TensorFlow 實現了 16.460 分鐘的訓練時間,使用 PyTorch 實現了 20.516 分鐘的訓練時間,兩者都具有八個加速器。

在使用 Criteo 4TB 數據集和 DLRM-dcnv2 模型的推薦任務中,Gaudi2 使用 PyTorch 實現了 14.794 分鐘的訓練時間,使用 TensorFlow 實現了 14.116 分鐘的訓練時間,兩者都具有八個加速器。

在封閉部門,第四代 Xeon 可以分別在不到 4 分鐘和不到 50 分鐘的時間內訓練 BERT 和 ResNet-50 模型。 在開放部門使用 BERT 時,當擴展到 90 個節點時,Xeon 在大約 30 分鐘內訓練了模型。

這些結果凸顯了使用經濟高效且易於使用的英特爾以太網 800 系列網絡適配器(利用基於英特爾 oneAPI 的開源英特爾以太網結構套件軟件)可實現卓越的擴展效率。

市場影響

英特爾 Habana Gaudi2 在 MLPerf Training 3.0 基準測試中的結果突顯了該公司致力於為從數據中心到智能邊緣的廣泛應用提供具有競爭力和高效的人工智能解決方案。 在這方面,NVIDIA 顯然是俱樂部的領導者,每個服務器供應商都在竭盡全力向業界展示各種適合 AI 工作負載的 GPU 密集型設備。 但這一數據再次證明,人工智能並不是一刀切的類別,英特爾正在儘自己的一份力量,為行業提供選擇。 最終結果是部署人工智能的組織取得了勝利,因為更多的競爭和選擇通常是一件非常好的事情。

哈瓦那高迪2

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱