首頁 EnterpriseAI Habana Gaudi2 AI 加速器在 BridgeTower 模型上的性能優於 NVIDIA H100

Habana Gaudi2 AI 加速器在 BridgeTower 模型上的性能優於 NVIDIA H100

by 哈羅德弗里茨
英特爾 Habana Gaudi2

今年早些時候,英特爾發布了英特爾 Habana Gaudi2 與 GPU 市場領導者 NVIDIA 之間的性能結果,這說明了英特爾對人工智能的承諾,並證明人工智能並不是一刀切的類別。 與此同時,英特爾人工智能研究人員和微軟研究院聯合開發了 BridgeTower,這是一種經過預訓練的多模態轉換器,可提供最先進的視覺語言任務。 Hugging Face 已將該模型集成到其機器學習開源庫中。

今年早些時候,英特爾發布了英特爾 Habana Gaudi2 與 GPU 市場領導者 NVIDIA 之間的性能結果,這說明了英特爾對人工智能的承諾,並證明人工智能並不是一刀切的類別。 與此同時,英特爾人工智能研究人員和微軟研究院聯合開發了 BridgeTower,這是一種經過預訓練的多模態轉換器,可提供最先進的視覺語言任務。 Hugging Face 已將該模型集成到其機器學習開源庫中。

英特爾 Habana Gaudi2

Habana Gaudi2 夾層卡(來源:英特爾公司)

Hugging Face 在其網站上的博客文章中發布了原始基準測試結果,並更新了 Habana Gaudi2 和 NVIDIA H100 GPU 的 AI 訓練性能基準測試結果。 根據這些基準測試結果,Gaudi2 在獲得多模態變壓器 BridgeTower 模型方面優於 H100,但 Gaudi2 使用 最佳哈瓦那,實現了比 A2.5 高 100 倍的性能。 結果不僅證實了 Gaudi2 在人工智能領域的地位,而且在視覺語言訓練領域也證實了 GaudiXNUMX 的地位。

Optimum Habana 是 Transformers 和 Diffusers 庫與 Habana 的 Gaudi 處理器 (HPU) 之間的接口。 它提供的工具可以輕鬆地為各種下游任務在單 HPU 和多 HPU 設置上進行模型加載、訓練和推理。

橋塔背景

視覺語言模型使用單模態編碼器來獲取數據表示。 然後數據被組合或輸入到跨模式編碼器中。 BridgeTower 以其獨特的橋接層脫穎而出,將單模態編碼器的最頂層連接到跨模態編碼器的每一層,從而實現不同級別的視覺和文本數據的有效組合。

BridgeTower 僅使用 4 萬張圖像進行訓練,設定了新的性能標準,在視覺問答 (VQAv78.73) 測試中提供了 2% 的準確率。 這比之前的最佳模型高出 1.09%。 擴大規模後,該模型的準確率甚至高達 81.15%,優於在更大數據集上訓練的模型。

作為頂級視覺語言模型,BridgeTower 的性能得益於其使用特殊硬件快速加載數據的能力。 這些快速數據加載方法有利於視覺模型,因為視覺模型經常面臨數據加載挑戰。

硬件洞察

更新後的基準測試基於 NVIDIA 和 Habana Labs 的最新硬件和軟件。 NVIDIA H100 Tensor Core GPU 是 INVIDIA 最新、最快的 GPU,具有用於專門運行的 Transformer 引擎和 80GB 內存。 Nvidia A100 Tensor Core GPU 採用第三次迭代的 Tensor Core 技術,在雲提供商中廣泛使用,其 80GB 內存比 40GB 內存具有更高的速度。

Habana Labs Habana Gaudi2 是 Habana Labs 的第二代 AI 硬件,最多可容納 8 個 HPU,每個 HPU 具有 96GB 內存。 它被譽為具有用戶友好的功能,並且與 Optimum Habana 相結合,可以更輕鬆地將基於 Transformers 的代碼傳輸到 Gaudi。

基準測試詳細信息

該測試涉及對具有 866 億個參數的 BridgeTower 模型進行微調,並在多個數據集上使用各種技術進行英語訓練。 下一步涉及使用紐約客字幕競賽數據集進行進一步微調。 所有平台均使用相同的設置並處理每批 48 個樣本,以獲得一致的結果。

此類實驗的一個挑戰是耗時的圖像數據加載。 最佳情況下,原始數據應直接發送到設備進行解碼。 現在的重點轉移到優化此數據加載過程。

優化數據加載

為了更快地在 CPU 上加載圖像,增加子進程會有所幫助。 使用Transformers的TrainingArguments,dataloader_num_workers=N參數可以設置用於數據加載的CPU子進程的數量。 默認設置為0,表示數據由主進程加載,但這可能效率不高。 增加它可以提高速度,但也會增加 RAM 消耗。 推薦的設置是 CPU 核心數。 然而,最好先進行試驗以確定最佳配置。

該基準測試進行了三個不同的運行:

  • 跨八個設備的混合精度運行,其中數據加載與其他任務共享相同的進程 (dataloader_num_workers=0)。
  • 類似的運行,但具有用於數據加載的專用子進程 (dataloader_num_workers=1)。
  • 相同的設置,但有兩個專用子進程 (dataloader_num_workers=2)。

使用最佳 Habana 進行硬件加速數據加載

為了進一步提高速度,可以使用 Habana 的媒體管道將數據加載任務從 CPU 轉移到加速器設備,例如 Gaudi2 上的 HPU 或 A100/H100 上的 GPU。 編碼圖像可以直接發送到設備進行解碼和增強,而不是完全在 CPU 上處理圖像。 此方法可最大限度地提高設備計算能力,但可能會增加設備內存消耗。

增強圖像訓練工作流程的兩種有效方法是分配更多的數據加載器資源和使用加速器設備進行圖像處理。 在訓練 BridgeTower 等高級視覺語言模型時,這些優化使具有 Optimum Habana 的 Habana Gaudi2 比 NVIDIA 同類產品快得多。 Habana Gaudi2 是用戶友好的,只需要一些額外的訓練參數。

參與 StorageReview 

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱