首页 企业 推出第四代英特尔至强可扩展处理器

推出第四代英特尔至强可扩展处理器

by 莱尔·史密斯
第 4 代英特尔至强可通过 hbm 扩展

英特尔推出了其第四代英特尔至强可扩展处理器(Sapphire Rapids)、英特尔至强 CPU Max 系列(Sapphire Rapids HBM)和英特尔数据中心 GPU Max 系列(Ponte Vecchio)。 它们专为提高数据中心的性能、效率、安全性和人工智能、云计算、网络、边缘计算和超级计算机的能力而构建。 英特尔正在与客户合作,使用新产品提供定制的解决方案和系统,以满足大规模的计算需求。

英特尔推出了其第四代英特尔至强可扩展处理器(Sapphire Rapids)、英特尔至强 CPU Max 系列(Sapphire Rapids HBM)和英特尔数据中心 GPU Max 系列(Ponte Vecchio)。 它们专为提高数据中心的性能、效率、安全性和人工智能、云计算、网络、边缘计算和超级计算机的能力而构建。 英特尔正在与客户合作,使用新产品提供定制的解决方案和系统,以满足大规模的计算需求。

目前全球有超过 100 亿个独立的 Xeon 处理器在使用。 为什么他们如此受欢迎? 好吧,它们有多种配置可供选择,并且设计为可扩展的,允许它们用于广泛的应用程序和环境。 它们还可以针对特定工作负载或应用程序进行定制,提供一系列安全功能以帮助抵御恶意软件和数据泄露等威胁,并且非常节能。

英特尔第 4 代至强处理器正面和背面第 4 代英特尔至强可扩展 CPU 型号

新的 Xeon 型号有六个类别,包括 Max 9400、Platinum 8000、Gold 6000、Gold 5000、Silver 4000 和 Bronze 3000,以及 Max 系列。 每个系列都有一系列不同的模型,可以深入到它们的目标用例:

  • 性能通用
  • 主线通用
  • 液冷通用
  • 单插座通用(“Q”系列)
  • 长寿命使用 (IoT) 通用(“T”系列)
  • IMDB/分析/虚拟化优化(“H”系列)
  • 5G/网络优化(“N”系列)
  • 云优化 IaaS(“P”、“V”和“M”系列)
  • 存储和超融合基础架构优化(“S”系列)
  • HPC 优化(即 Intel Xeon CPU Max 系列)

第 4 代英特尔至强可扩展芯片

例如,强大的 白金系列 处理器专为高级数据分析、人工智能和混合云数据中心而设计,提供高性能、平台功能和工作负载加速,以及增强的基于硬件的安全性和多路处理。 这些处理器还为每个处理器提供多达 60 个内核(与顶级处理器相比增加了 20 个内核 第三代至强模型)、八个内存通道和 Intel AMX 的 AI 加速。

第 4 代英特尔至强可通过 hbm 扩展

英特尔至强金6400黄金5400 处理器针对数据中心和多云工作负载进行了优化。 它们提供增强的内存速度、容量、安全性和工作负载加速。 英特尔 Xeon Silver 4400 处理器为入门级数据中心计算、网络和存储提供基本性能、改进的内存速度和能效。

以下是每个至强 CPU 及其目标用例的详细概述:

产品优势 第四代英特尔至强可扩展处理器 英特尔至强 CPU Max 系列
极限核心数 (XCC) 中等核心数 (MCC) 高带宽内存(HBM)
 

模具构造

使用 MDF 通过英特尔嵌入式多芯片互连桥接器 (EMIB) 连接四个拼贴块  

一颗单片机

使用 MDF 通过英特尔嵌入式多芯片互连桥接器 (EMIB) 连接四个拼贴块
核心计数 多达 60 个活动核心 多达 32 个活动核心 多达 56 个活动核心
TDP范围 225至350W 125至350W 350W
 

内存

DDR5 @ 4800 (1 DPC)、4400 (2DPC)、16 Gb DRAM、8 通道

英特尔傲腾 PMem 300(Crow Pass)@4400 MT/s

DDR5 @ 4800 (1 DPC), 4400 (2DPC), 8 通道

64 GB HBM2e 内存,最高 1.14 GB/核心

英特尔 UPI UPI 2.0 @ 16 GT/s,最多 4 个超路径互连 UPI 2.0 @ 16 GT/s,最多 3 个超路径互连 UPI 2.0 @ 16 GT/s,最多 4 个超路径互连
可扩展性 1 插座, 2 插座, 4 插座, 8 插座 1 插座, 2 插座, 4 插座 1个插座,2个插座
PCIe/Compute Express 链路 PCIe 5.0(80 通道),

通过 Compute Express Link (CXL) 4 最多支持 1.1 个设备

安全性 英特尔SGX

最小 Enclave 页面缓存 (EPC) 大小 256 MB

英特尔 SGX(仅限平面模式)
集成 IP 加速器 Intel QAT、DLB、IAA、DSA(每个最多 4 个设备) Intel QAT、DLB(每个最多 2 个设备)、Intel DSA、IAA(每个 1 个设备) 英特尔 DSA(4 台设备)

第四代英特尔至强可扩展处理器旨在提高性能并应对与人工智能、分析、网络、安全、存储和高性能计算 (HPC) 相关的各种计算挑战。 这些处理器以拥有所有 CPU 中最多的内置加速器而著称。

据英特尔称,第四代英特尔至强可扩展客户可以期待以下方面的平均性能提升:

  • 使用内置加速器时每瓦效率提高 9 倍,
  • 在优化电源模式下,每个 CPU 可节省 70 瓦电源,性能损失最小,
  • 与前几代产品相比,总拥有成本和功耗降低了 XNUMX%。

第 4 代 Intel Xeon Scalable – 提高能效

新的优化电源模式可为特定工作负载提供高达 20% 的插座功耗节省和不到 5% 的性能影响。 空气和液体冷却方面的创新可以进一步降低数据中心的总能耗。

第 4 代英特尔至强可扩展 CPU 配备了大量内置加速器,有助于在平台级别节省功耗并减少额外加速的需求。 这可以帮助他们的客户实现他们的可持续发展目标。 此外,新推出的优化电源模式预计可节省高达 20% 的插座电源,同时对特定工作负载的性能影响最小。

第四代英特尔至强可扩展可持续性

空气和液体冷却方面的创新可以进一步降低数据中心的总能耗。 第 4 代至强处理器也使用 90% 或更多的可再生电力在配备先进水回收设施的英特尔工厂制造。

人工智能性能的新进展

与上一代相比,第 4 代 Xeon 处理器通过使用其 Advanced Matrix Extension (Intel AMX) 加速器实现高达 10 倍的 PyTorch 实时推理和训练性能,

PyTorch 是一种用于构建和训练神经网络的机器学习框架。 实时推理涉及使用经过训练的神经网络模型根据新的输入数据进行实时预测或决策。 更高的 PyTorch 实时推理和训练性能对于英特尔处理器至关重要,因为它允许它们更高效地运行涉及实时预测或决策的机器学习工作负载。

这在快速准确的预测或决策至关重要的应用程序中特别有用。 此外,机器学习任务的更高性能可以导致更快的模型训练和更准确的预测,以及使用更大更复杂模型的能力。

因此,英特尔表示,他们新的第四代英特尔至强可扩展处理器可以为自然语言处理提供更多功能,声称在大型语言模型上的速度提高了 4 倍。

英特尔的 AI 软件套件经过了 400 多个机器学习和深度学习 AI 模型的测试,涵盖各个行业和应用程序,可与开发人员首选的 AI 工具一起使用,以提高生产力并加速 AI 开发。 该套件被设计为可移植的,允许它在工作站上使用并部署在边缘和云端。

网络功能

第四代英特尔至强可扩展处理器还为高性能、低延迟网络和边缘工作负载提供专门优化的模型。 这些处理器在推动电信、零售、制造和智慧城市等行业更加软件定义的未来方面发挥着至关重要的作用。 对于 4G 核心工作负载,内置加速器可帮助提高吞吐量并减少延迟,同时电源管理改进可增强平台的响应能力和效率。

与 3 相比,它们还可以将虚拟化无线电接入网络 (vRAN) 容量增加一倍rd-gen Xeon 处理器(不消耗更多功率)。 一般来说,具有更高 vRAN 容量的处理器可以更高效、更有效地处理网络数据流量,例如减少延迟和提高整体性能。 这对于需要实时通信的应用程序尤为重要。

英特尔表示,这将使通信服务提供商的每瓦性能提高一倍,并满足他们的性能和能效需求。 随着 vRAN 工作负载数量的变化,vRAN 的增加还将使组织能够更轻松地向上或向下扩展,这意味着网络资源具有更大的灵活性(例如,无需额外的硬件、电源或基础设施)。

HPC

英特尔实验室的第四代英特尔至强可扩展 HPC 系统

英特尔 HPC 实验室的计算刀片(开放式机箱)

第四代英特尔至强可扩展和英特尔 Max 系列产品提供可扩展的平衡架构,将 CPU 和 GPU 与 oneAPI 的开放软件生态系统相结合,用于 HPC 和 AI 中要求苛刻的计算工作负载。 英特尔声称,这种架构是专门为解决当今世界上最困难的问题而设计的。

OneAPI 开放软件是一组工具和库,允许开发人员使用一组编程接口编写可在各种硬件平台(包括 CPU、GPU 和其他专用处理器)上运行的代码。 这可以更轻松地为不同的计算环境开发和优化应用程序。

英特尔 HPC 实验室的计算刀片

英特尔 HPC 实验室的计算刀片

在英特尔的琼斯农场,StorageReview 了解了 Borealis 的幕后情况。 英特尔、HPE 和阿贡国家实验室正致力于交付 Aurora 超级计算机,该计算机将与今天宣布的新的第四代 Xeon 和数据中心 GPU 平台一起实施。

Borealis 是一个双机架微型系统,位于俄勒冈州的琼斯农场实验室,用于验证 Aurora 系统及其新技术。 它具有与 Aurora 相同的架构和设计,并且正在接受测试以验证软件和液体冷却系统的所有组件,然后再在阿贡国家实验室大规模安装该系统。

水冷系统:Jones Farm HPC 实验室的实验室经理 - Borealis 展示了水冷系统中用于保持机架凉爽的红色和蓝色管子。

水冷系统:Jones Farm HPC 实验室的实验室经理 - Borealis 展示了水冷系统中用于保持机架凉爽的红色和蓝色管子。

Intel Xeon CPU / GPU Max 系列

英特尔至强 CPU Max 系列是第一款投放市场的具有高带宽内存的 x86 处理器,无需更改代码即可加速许多 HPC 工作负载。 该公司将英特尔数据中心 GPU Max 系列称为其密度最高的处理器,将提供各种外形规格以满足各种客户需求。

Xeon CPU Max 系列提供 64GB 的封装高带宽内存,可显着提高 HPC 和 AI 工作负载的数据吞吐量。 与高端的第三代英特尔至强可扩展处理器相比,至强 CPU Max 系列在能源和地球系统建模等各种现实应用中的性能提高了 3 倍。 CPU 带宽对于 HPC 和 AI 工作负载至关重要,因为它们通常需要在 CPU 和内存之间处理和移动大量数据。 否则,它可能会成为系统性能的瓶颈并导致更长的处理时间。

数据中心 GPU Max 系列在 100 块封装中包含超过 47 亿个晶体管,可为涉及物理、金融服务和生命科学的工作负载带来更高的吞吐量。 当与Xeon CPU Max系列结合使用时,该平台在运行开源代码LAMMPS(大规模原子/分子大规模并行模拟器)分子动力学模拟器时,可实现比上一代高达12.8倍的性能提升。

英特尔数据中心 GPU

英特尔推出了 数据中心 GPU Flex 系列 早在 2022 年 16 月,一款基于 Xe HPG 的卡具有多达 8 个(每个 GPU 16 个)X 内核、16 TFLOPS 和 XNUMXGB 内存容量。

英特尔点播

英特尔按需服务允许客户扩展或升级大多数第四代英特尔至强可扩展处理器上可用的加速器和硬件增强功能。 该服务由英特尔和硬件供应商管理,包括一个用于许可证订购的 API 和一个用于许可证配置和激活的软件代理。

客户可以选择在购买时购买按需功能或作为购买后的升级,英特尔还在研究一种计量采用模型,在该模型中,可以根据需要打开和关闭这些功能,并根据费用进行支付用法。 第 4 代 Xeon 处理器的激活模型的引入允许客户选择功能齐全的高级 SKU 或在处理器的整个生命周期中随时添加功能。

On-Demand 的初始供应商包括 H3C、Inspur、Lenovo、Supermicro 和 Variscale,英特尔正在与其他供应商合作制定他们的支持计划。

芯片级 DRM 或数字版权管理是指控制对某些计算机芯片特性或功能的访问的技术。 在 Intel On-Demand 的上下文中,芯片级 DRM 可能会用于限制对第四代 Intel Xeon 可扩展处理器的某些特性或功能的访问,除非通过 On-Demand 服务购买或激活。 这可能会影响维修权,因为这可能会使个人或独立维修店更难访问和维修配备英特尔按需服务的系统的某些方面。

在使用和处置技术产品(包括企业 CPU)时,环境可持续性是一个重要的考虑因素。 虽然 Intel On-Demand 可能允许客户扩展或升级其处理器的功能,但尚不清楚该服务将如何影响产品的环境可持续性。 由于封装的 TDP 不会随着激活而改变,因此可能需要考虑未使用功能的能耗以及由于升级或更换而增加电子垃圾的可能性。 对于像英特尔这样的公司来说,考虑其产品和服务对环境的影响并努力寻求更可持续的解决方案至关重要。

第 4 代英特尔至强可扩展性能 测试

第 4 代英特尔至强可扩展处理器对提高效率的重视在我们的一些早期基准测试中表现出色。 这些新处理器被宣传为通过改进制造改进和目标工作负载,实现比第 53 代 Xeon 可扩展处理器 3% 的效率(用于通用计算)提高,利用内置加速器将每瓦特平均性能提高 2.9 倍。

除了这些改进之外,新一代中端芯片与上一代顶级型号一样强大,使其成为数据中心运营商的经济高效选择。 这些中端芯片可以以更低的价格提供与旗舰型号相似的性能,从而帮助数据中心优化成本并提高整体效率。

我们有几个选项来测试 Sapphire Rapids 的性能,为了展示效率改进,我们测试了带有双 4Y(8454 美元)至强的中端第四代平台,并将其与第三代顶级平台进行了比较双 3,995(3 美元)CPU。 通过第四代的新改进,我们的中端系统能够与上一代旗舰机型保持一致。

CINEBENCH
2 x 第 4 代 8452Y (2.0GHz x 36) 2 x 第三代 3 (8380GHz x 2.3)
多核 60075 70540
单核 841 985
核心倍增器 71.40x 71.63x
Blender CLI 渲染基准
2 x 第 4 代 8452Y (2.0GHz x 36) 2 x 第三代 3 (8380GHz x 2.3)
怪物 652.526942 671.145395
旧货店 401.119468 407.141514
课堂 308.802541 320.507039
合计 1362.448951 1398.793948

此外,在内部 AI 模型训练测试中,我们注意到性能提高了大约 5%,第三代 95 为 3 分钟,而第四代 8380Y 为 90 分钟。 

总体而言,第四代英特尔至强可扩展处理器提供的效率提升使其成为希望降低功耗和成本的数据中心运营商的有吸引力的选择。 通用处理器在性能和效率之间实现了出色的平衡,使其成为处理各种工作负载的可靠选择。 我们很高兴能够针对数据中心工作负载测试特定加速器,包括数据存储加速器。

市场影响

通过 第 4 代英特尔至强可扩展处理器终于交付给企业,云提供商已经拥有这些处理器一段时间了,与 AMD 热那亚 CPU 在数据中心。 虽然处于高水平,但很容易看到热那亚庞大的 PCI 通道数并宣布他们是胜利者。 但如今选择合适的 CPU 远比这复杂得多。 成本、能源、性能和系统中附加组件的资格之间存在微妙的平衡。 哦,我们不要忽视了解工作负载以使其与正确的 CPU 保持一致的重要性。 

所以今天,对于热那亚或蓝宝石急流谁更好的问题没有简单的答案。 随着戴尔、HPE、超微、联想和其他公司将系统推向市场,这需要时间才能发挥作用。 随着新的采用 SSD 外形规格 现在在服务器中进行,支持 Gen5 吞吐量,以及新的高速网络和加速器选项,例如 数据处理单元,比赛正在进行中。 然而,这不是规格表之战。 企业 IT 组织有责任尽可能地勤奋和了解情况,以确保他们投资于能够充分支持其应用程序需求的系统。 这可能是最大的挑战。 面对如此多的选择,经验丰富的 IT 合作伙伴现在可能比以往任何时候都更加重要。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅