首页 企业AI 英特尔 Habana Gaudi2 加速器为大型语言模型提供 NVIDIA 替代方案

英特尔 Habana Gaudi2 加速器为大型语言模型提供 NVIDIA 替代方案

by 乔丹拉努斯
英特尔 Habana Gaudi2

据该公司发布的新闻稿称,英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 4 基准测试中展示了令人印象深刻的结果。 该基准由 MLCommons 发布,是广泛认可的人工智能性能行业标准。

据该公司发布的新闻稿称,英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 4 基准测试中展示了令人印象深刻的结果。 该基准由 MLCommons 发布,是广泛认可的人工智能性能行业标准。

结果挑战了业界盛行的说法,即生成式 AI 和大型语言模型 (LLM) 只能在 NVIDIA GPU 上运行。 英特尔的人工智能解决方案组合为寻求摆脱限制效率和可扩展性的封闭生态系统的客户提供了有竞争力的替代方案。

英特尔 Habana Gaudi2

照片显示 Habana Gaudi2 夹层卡。 10年2022月2日,专注于AI深度学习处理器技术的英特尔数据中心团队Habana Labs推出了第二代用于训练和推理的深度学习处理器:Habana GaudiXNUMX和Habana Greco。 (来源:英特尔公司)

什么是 MLPerf?

这款 MLPerf 训练 3.0 基准套件衡量不同系统训练模型以满足指定质量指标的速度。 这些基准涵盖视觉、语言和商业等各个领域,并使用不同的数据集和质量目标。

基准详情

区域 基准 数据集 质量目标 参考实施模型
愿景 图像分类 影像网 75.90% 分类 ResNet-50 v1.5
愿景 图像分割(医学) 基特斯19 0.908 平均 DICE 分数 3D U 网
愿景 物体检测(轻量级) 打开图像 34.0% 地图 视网膜网
愿景 物体检测(重量级) COCO 0.377 Box min AP 和 0.339 Mask min AP 面具R-CNN
语言选择 语音识别 图书馆演讲 0.058 字错误率 RNN-T
语言选择 NLP 维基百科 2020/01/01 0.72 Mask-LM 精度 BERT-大
语言选择 LLM C4 2.69 对数困惑度 GPT3
商业率 推荐 Criteo 4TB 多热 0.8032澳元 DLRM-dcv2

在视觉领域,基准测试包括使用 ImageNet 数据集进行图像分类,质量目标为 75.90% 的分类准确率。 该任务的参考模型是ResNet-50 v1.5。 其他视觉基准包括使用 KiTS19 医学数据集的图像分割以及使用 Open Images 和 COCO 数据集的对象检测。

对于语言任务,基准测试包括使用 LibriSpeech 数据集进行语音识别,质量目标为 0.058 字错误率。 该任务的参考模型是 RNN-T。 其他语言基准包括使用维基百科 2020/01/01 数据集的自然语言处理 (NLP) 和使用 C4 数据集的大语言模型 (LLM) 训练。

在商业领域,基准测试是使用 Criteo 4TB 多热数据集的推荐任务,质量目标为 0.8032 AUC。 此任务的参考模型是 DLRM-dcnv2。

测量指标

基准套件测量在特定数据集上训练模型以达到指定质量目标的时间。 由于机器学习训练时间固有的可变性,最终结果是通过多次运行基准测试、丢弃最高和最低结果,然后对剩余结果取平均值来获得的。 尽管如此,结果仍然存在一些差异,成像基准测试结果有大约 +/- 2.5% 的差异,其他基准测试有大约 +/- 5% 的差异。

基准部门

MLPerf 通过允许参与者重新实现参考实现来鼓励软件和硬件创新。 MLPerf 中有两个部分:封闭部分和开放部分。 封闭划分旨在直接比较硬件平台或软件框架,并需要使用与参考实现相同的模型和优化器。 另一方面,开放部门鼓励开发更快的模型和优化器,并允许任何机器学习方法实现目标质量。

系统可用性

MLPerf 根据系统可用性对基准测试结果进行分类。 分类为“可用”的系统仅包含可在云中购买或租用的组件。 “预览”系统预计将在下一轮提交中提供。 最后,分类为“研究、开发或内部 (RDI)”的系统包含实验性、开发中或供内部使用的硬件或软件。

英特尔 Habana Guadi2 亮相

尤其是Gaudi2深度学习加速器,表现出了强大的 性能 基于大型语言模型 GPT-3,使其成为仅有的两个提交 GPT-3 LLM 训练性能结果的半导体解决方案之一。 Gaudi2 还在服务器和系统成本方面提供了显着的成本优势,使其成为 NVIDIA H100 的极具性价比的替代品。

搭载英特尔人工智能引擎的第四代至强处理器证明,客户可以构建通用人工智能系统,用于数据预处理、模型训练和部署,提供人工智能性能、效率、准确性和可扩展性。

Gaudi2 在 GPT-3 上的训练时间令人印象深刻,在 311 个加速器上达到了 384 分钟,在 GPT-95 模型上从 256 个加速器到 384 个加速器实现了近线性 3% 的扩展。 它还在计算机视觉和自然语言处理模型方面表现出了出色的训练结果。 这 高迪2结果 提交时“开箱即用”,这意味着客户在本地或云端实施 Gaudi2 时可以获得可比较的性能结果。

第四代至强处理器作为众多替代解决方案中唯一提交的CPU,证明英特尔至强处理器为企业提供了在通用系统上部署人工智能的开箱即用功能,避免了引入专用人工智能的成本和复杂性系统。

Habana Gaudi2 8 节点集群

在使用维基百科数据集和 BERT-large 模型的自然语言处理(NLP)任务中,Gaudi2 使用 2.103 个加速器实现了 64 分钟的训练时间。

在使用 KiTS19 数据集和 3D U-Net 模型的图像分割(医学)任务中,Gaudi2 使用 TensorFlow 实现了 16.460 分钟的训练时间,使用 PyTorch 实现了 20.516 分钟的训练时间,两者都具有八个加速器。

在使用 Criteo 4TB 数据集和 DLRM-dcnv2 模型的推荐任务中,Gaudi2 使用 PyTorch 实现了 14.794 分钟的训练时间,使用 TensorFlow 实现了 14.116 分钟的训练时间,两者都具有八个加速器。

在封闭部门,第四代 Xeon 可以分别在不到 4 分钟和不到 50 分钟的时间内训练 BERT 和 ResNet-50 模型。 在开放部门使用 BERT 时,当扩展到 90 个节点时,Xeon 在大约 30 分钟内训练了模型。

这些结果凸显了使用经济高效且易于使用的英特尔以太网 800 系列网络适配器(利用基于英特尔 oneAPI 的开源英特尔以太网结构套件软件)可实现卓越的扩展效率。

市场影响

英特尔 Habana Gaudi2 在 MLPerf Training 3.0 基准测试中的结果突显了该公司致力于为从数据中心到智能边缘的广泛应用提供具有竞争力和高效的人工智能解决方案。 在这方面,NVIDIA 显然是俱乐部的领导者,每个服务器供应商都在竭尽全力向业界展示各种适合 AI 工作负载的 GPU 密集型设备。 但这一数据再次证明,人工智能并不是一刀切的类别,英特尔正在尽自己的一份力量,为行业提供选择。 最终结果是部署人工智能的组织取得了胜利,因为更多的竞争和选择通常是一件非常好的事情。

哈瓦那高迪2

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅