首頁 Enterprise 英特爾吹捧 HPC 和 AI 工作負載性能領導地位,在 ISC 23 上更新 Granite Rapids 路線圖

英特爾吹捧 HPC 和 AI 工作負載性能領導地位,在 ISC 23 上更新 Granite Rapids 路線圖

by 哈羅德弗里茨

在 ISC 23 的演講中,英特爾強調了其在高性能計算 (HPC) 和人工智能 (AI) 工作負載方面的性能領導地位,分享了其未來 HPC 和 AI 產品組合,並宣布了雄心勃勃的國際合作計劃,以使用 Aurora超級計算機為科學和社會開發生成人工智能模型。

在 ISC 23 的演講中,英特爾強調了其在高性能計算 (HPC) 和人工智能 (AI) 工作負載方面的性能領導地位,分享了其未來 HPC 和 AI 產品組合,並宣布了雄心勃勃的國際合作計劃,以使用 Aurora超級計算機為科學和社會開發生成人工智能模型。

競爭性能是最重要的,英特爾的結果在競爭中是明顯的贏家。 英特爾的數據中心 GPU Max 系列在各種工作負載上的性能平均優於 NVIDIA H100 PCIe 卡 30%。 軟件供應商 Ansys 的獨立結果表明,Max 系列 GPU 在人工智能加速的 HPC 應用程序上比 H50 提速了 100%。

在高性能共軛梯度 (HPCG) 基準測試中,至強 Max 系列 CPU 與 AMD 的 Genoa 處理器相比提高了 65%,而且功耗更低。 HPC 的最愛,第四代英特爾至強可擴展處理器,比 AMD 的 Milan4 平均提速 50%。 BP 最新的第 4 代 Xeon HPC 集群的性能比其上一代處理器提高了 4 倍,並提高了能效。 Gaudi8 深度學習加速器在深度學習、訓練和推理方面具有競爭力,性能比 NVIDIA A2 快 2.4 倍。

下一代 CPU 和 AI 優化的 GPU

Intel 公司副總裁兼超級計算事業部總經理 Jeff McVeigh 介紹了 Intel 為滿足高內存帶寬需求而設計的下一代 CPU。 英特爾為 Granite Rapids 開發了一種新型 DIMM——多路復用器組合列 (MCR)。 基於 DDR8,800,MCR 實現了每秒 5 兆傳輸的速度和雙路系統中超過 1.5 太字節/秒 (TB/s) 的內存帶寬能力。

英特爾還披露了 Supermicro 基於 AI 優化的 x8 Max 系列 GPU 子系統,旨在加速深度學習訓練。 OEM 預計將在今年夏天的某個時候提供帶有 Max 系列 GPU x4 和 x8 OAM 子系統和 PCIe 卡的解決方案。

英特爾的下一代 Max 系列 GPU Falcon Shores 將使客戶能夠靈活地實施系統級 CPU 和離散 GPU 組合,以應對未來不斷變化的新工作負載。 Falcon Shores 系統採用模塊化、基於區塊的架構,使其能夠:

  • 支持從 FP64 到 BF16 到 FP8 的 HPC 和 AI 數據類型。
  • 支持高達 288GB 的​​ HBM3 內存以及高達 9.8TB/s 的總帶寬和大幅改進的高速 I/O。
  • 增強 CXL 編程模型。
  • 通過oneAPI呈現統一的GPU編程接口。

科學的生成人工智能

阿貢國家實驗室與英特爾和 HPE 合作,宣布計劃為科學研究界創建一系列生成式 AI 模型。 這些用於科學的生成式 AI 模型將根據來自生物學、化學、材料科學、物理學、醫學和其他來源的一般文本、代碼、科學文本和結構化科學數據進行訓練。

由此產生的模型(具有多達 1 萬億個參數)將用於各種科學應用,從分子和材料的設計到跨數百萬來源的知識綜合,以提出系統生物學、高分子化學方面令人興奮的新實驗和能源材料、氣候科學和宇宙學。 該模型還將用於加速識別與癌症和其他疾病相關的生物過程,並為藥物設計提供目標建議。

為了推進該項目,Argonne 正在帶頭開展一項國際合作,其中包括:

  • Intel英特爾
  • HPE
  • 能源實驗室部
  • 美國和國際大學
  • 非營利組織
  • 國際合作夥伴

Aurora 有望在今年推出時提供超過 XNUMX exaflops 的峰值雙精度計算性能。

oneAPI 使 HPC 應用程序受益

最新的英特爾 oneAPI 工具通過 OpenMP GPU 卸載為 HPC 應用程序提供加速,擴展對 OpenMP 和 Fortran 的支持,並通過優化的框架(包括 TensorFlow 和 PyTorch)和人工智能工具加速人工智能和深度學習,從而提高性能。

通過 oneAPI 的 SYCL 實現、Codeplay 開發的適用於 NVIDIA 和 AMD 處理器的 oneAPI 插件,以及將代碼從 CUDA 遷移到 SYCL 和 C++ 的英特爾 DPC++ 兼容性工具,程序員可以更輕鬆地進行多體系結構編程,其中 90-95% 的代碼通常會自動遷移. 生成的 SYCL 代碼顯示出與在 NVIDIA 和 AMD 本地系統語言上運行的相同代碼相當的性能。 數據顯示,在 Max 系列 GPU 上運行的 DPEcho 天體物理學應用程序的 SYCL 代碼比在 NVIDIA H100 上運行的相同 CUDA 代碼高出 48%。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱