AMD 已宣布新的 EPYC 9004 第 4 代 CPU 全面上市。 代号为 AMD Genoa 的新系列 CPU 支持 12 通道 DDR5-4800(每个插槽高达 6TB 内存容量)、128 条 PCIe Gen5 通道、AMD Infinity Fabric/Guard 技术以及多达 96 个内核。 这使它们成为跨云、企业和高性能计算的关键工作负载的理想选择。
AMD 已宣布新的 EPYC 9004 第 4 代 CPU 全面上市。 代号为 AMD Genoa 的新系列 CPU 支持 12 通道 DDR5-4800(每个插槽高达 6TB 内存容量)、128 条 PCIe Gen5 通道、AMD Infinity Fabric/Guard 技术以及多达 96 个内核。 这使它们成为跨云、企业和高性能计算的关键工作负载的理想选择。
EPYC 9004 第四代 CPU 对企业的好处
凭借其在单个处理器中的 96 核数量,新的 AMD Genoa 处理器将允许组织通过部署更少的服务器同时利用更强大的服务器来减少物理占用空间。 这为数据中心生态系统带来了更大的灵活性,并帮助它们实现可持续性和面向未来的目标。
AMD 构建新的 EPYC 处理器时非常注重增强安全性,特别是通过扩展 AMD Infinity Guard,该公司的一系列功能为其 CPU 提供物理和虚拟保护层。 例如,它的加密密钥数量是前几代产品的两倍,这有助于客户确保数据安全,无论数据是存储在本地、云端还是驻留在存储器中。
组织将能够受益于他们的“全能”功能集,可以选择具有最适合他们需求的核心数量和频率(见下表)的模型。 此外,第 4 代 AMD EPYC 处理器现在支持 DDR5 内存和 PCIe Gen 5,这两者对于 AI 和 ML 应用程序都至关重要。 当然,企业级 SSD 供应商正迫不及待地将他们的驱动器推向主流,释放出比第 4 代多一倍的带宽潜力。
AMD Genoa 9004 系列 SKU
型号 | 颜色 | 默认 TDP | 技术开发计划 | 基地 (GHz) | 升压 (GHz) |
9654 | 96 | 360w | 320-400w | 2.4 | 3.7 |
9634 | 84 | 290w | 240-300w | 2.25 | 3.7 |
9554 | 64 | 360w | 320-400w | 3.1 | 3.75 |
9534 | 64 | 280w | 240-300w | 2.45 | 3.7 |
9454 | 48 | 290w | 240-300w | 2.75 | 3.8 |
9354 | 32 | 280w | 240-300w | 3.25 | 3.8 |
9334 | 32 | 210w | 200-240w | 2.7 | 3.9 |
9254 | 24 | 200w | 200-240w | 2.9 | 4.15 |
9224 | 24 | 200w | 200-240w | 2.5 | 3.7 |
9124 | 16 | 200w | 200-240w | 3.0 | 3.7 |
9474F | 48 | 360w | 320-400w | 3.6 | 4.1 |
9374F | 32 | 320w | 320-400w | 3.85 | 4.3 |
9274F | 24 | 320w | 320-400w | 4.05 | 4.3 |
9174F | 16 | 320w | 320-400w | 4.1 | 4.4 |
9654P | 96 | 360w | 320-400w | 2.4 | 3.7 |
9554P | 64 | 360w | 320-400w | 3.1 | 3.75 |
9454P | 48 | 290w | 240-300w | 2.75 | 3.8 |
9354P | 32 | 280w | 240-300w | 3.25 | 3.8 |
AMD 热那亚——Zen 4 架构
去年 4 月发布的 Zen 9004 是 AMD EPYC 9004 CPU 的新微架构,具有 AMD 迄今为止性能最高的内核。 这有助于 EPYC 4 CPU 在性能和能效方面达到新的领先水平,并允许客户加速数据中心现代化,以获得更高的应用程序吞吐量和更多可操作的见解。 Zen 7000 还为其新的消费级 Ryzen XNUMX 台式机处理器提供动力。
Zen 4 带来的更大变化之一是它不再支持 DDR4 内存,因为它已完全转向 DDR5-only。 此外,Zen 4 支持新的 AMD EXPO SPD 配置文件,允许 RAM 制造商进行更全面的内存调整和超频。
其他一些新功能包括:
- 快速私有 1M L2 缓存
- 每个内核支持从 L2 到 L3 的更多未命中
- 支持从 L3 到内存的更多未命中
- 改进的 L3 和 L2 miss BW
- 更高的 BW 可实现预取改进
Zen 4 微架构概述
禅 4 与禅 3
AMD EPYC 9004 系列对前几代产品的改进
新的 AMD Genoa 提供了一系列显着的改进,包括最大内核数增加到每个 CPU 高达 96 个。 与前几代相比,这一点意义重大:
- 最大 64核心 每个 CPU 与 7773X 和 7763 (3rd Gen EPYC)型号
- 最大 40核心 每个 CPU 与 8380 (3rd Gen Xeon Platinum) 型号
AMD 表示,就更快的解决方案时间而言,与竞争对手相比,这将转化为大约 2.3 倍的性能(或 1.6 倍的每瓦性能)。 这将是我们从他们的下一代版本中看到的整体性能的最大提升。 对于每秒企业业务操作,4th Gen AMD 期望他们的 EPYC CPU 提供约 2.6 倍的性能,同时暗示在使用 Arnold Autodesk 时渲染速度提高 2.4 倍。
由于 Zen 4 架构,它还提供了核心性能的显着升级,并且服务器 CPU 的 IPC 提升可能增加约 14%。
新的 EPYC 9004 系列还具有领先的平台功能,可扩展:
- 具有增强单列性能的 12 通道 DDR5-4800
- 128L 32Gps 和 8L 8Gps 多功能 SERDES(串行器/解串器)
此外,它还具有 CXL1.1+ 内存支持(CXL“Type3”),包括用于 DDR 和新兴内存的高级内存附加功能,以及 SEV-SNP、QoS 和分层内存管理扩展。 为了增强安全性,它支持 SEV-SNP 密钥扩展和 AES-256-XTS。
AMD EPYC 9004 系列内存
AMD Genoa CPU支持单CPU 12通道,单槽容量6TB,最高支持DDR4800,理论上峰值带宽也可以达到460GB/s。
以下是第 3 代和第 4 代内存带宽性能比较的概览:
AMD EPYC 9004系列CPU定位
与上一代产品一样,AMD 将其新 CPU 分为三个不同的组:
- 核心性能,它由具有大高速缓存/核心比率的高频 CPU 组成。 属于此范围的型号包括 9474F(48 核@360W)、9374F(32 核@320W)、9274F(24 核@320W)和 9174F(16 核@320W)。
- 核心密度,它由最高的核心和线程数 CPU 组成。 属于此范围的型号包括 9654/P(96 核@360W)、9634(84 核@290W)、9554/P(64 核@360W)、9534(64 核@280W)和 9454/P(48 核@290W) ).
- 平衡和优化的性能,它由具有性能和 TCO 平衡的 CPU 组成。 属于此范围的型号包括 9354/P(32 核@280W)、9334(32 核@210W)、9254(24 核@200W)、9224(24 核@200W)和 9124(16 核@200W)。
AMD 热那亚 9004 CPU 性能
对标配置
对于我们的初始测试,我们在第一批 CPU 密集型工作负载中将当前的高端 Intel 和 AMD 平台相互定位。 对于我们的英特尔平台,我们利用了我们最初的双 CPU 英特尔 8380 平台,该平台围绕英特尔 OEM 服务器构建,而我们的双 CPU AMD EPYC 9654 平台位于 Quanta 机箱内。
英特尔平台规格:
2 个 Intel Xeon Platinum 8380 40 核 CPU
16 个 32GB 3200MHz DDR4
Windows Server 2022 操作系统
AMD 平台规格:
2 个 AMD EPYC 9654 96 核 CPU
24 个 64GB 4800MHz DDR5
Windows Server 2022 操作系统
的V-Ray
V-Ray Benchmark 是 Chaos Group 的一款应用程序,用于对各种 CPU 和 GPU 进行评分和比较。 Chaos Group 以其在可视化和渲染方面的工作而闻名,专注于光线追踪技术。 V-Ray Benchmark 包含一个自定义构建测试场景,用于测试 CPU 和 GPU 的任意组合,并将一个系统的性能与另一个进行比较。
在我们的实验室中,我们在仅 CPU 模式下使用了 V-Ray 基准测试。 为了最大限度地减少任何潜在的瓶颈,我们使用了 Solidigm P5520 7.68TB NVMe SSD 和全新安装的 Windows Server 2022。V-Ray 排行榜的顶部以前是 2x AMD EPYC 7K83 64 核处理器系统,得分为令人印象深刻的 100,844 次测试的平均值为 6。 我们配备 2 个 AMD EPYC Genoa 96 核的示例系统在 126,940 项测试中的平均得分为 9。 与英特尔系统相比
Firefox 从源代码构建
Firefox 是 Mozilla 的浏览器,是一个庞大的开源项目。 Mozilla 热衷于为您提供自己从源代码编译项目的能力,这种能力作为比较性能的工具已经变得越来越普遍。 下载量为几千兆字节,需要编译数千个文件。
在我们的测试中,英特尔至强 6 平台的 57 分 8380 秒时间给我们留下了深刻的印象,直到我们在热那亚平台上启动它,它以 6 分 33 秒的惊人速度出现第二次编译时间。 相比之下,一个顶级工作站将能够在几乎不到 10 分钟的时间内完成这项任务,如果你给它提供稳定的液氮和过电压饮食,这意味着我们正在处理一些严重的原始马力这些芯片。
FF 从源代码构建 | |
2 个 AMD 9654 96 核 | 6:33.85 |
2 个英特尔 8380 40 核 | 6:57.85 |
Blender – CLI 基准测试
Blender Benchmark 是 CPU 和 GPU 基准测试领域的既定标准。 Blender 是一种开源 3D 建模和动画工具,非常先进,被认为是该领域的领导者。 与 Genoa EPYC 处理器的主题一致,我们正在利用它来展示混合架构的灵活性,该架构能够支持 CPU 和潜在的 GPU 替代品,用于高密度机架部署。
Blender 具有三个基准,分别称为 Monster、Junkshop 和 Classroom。 这是三个按顺序渲染的场景,每个部分都有一个分数,然后将其相加得出总分。
搅拌机测试 | 2 个 AMD 9654 96 核 | 2 个英特尔 8380 40 核 |
怪物 | 1788.189128 | 671.145395 |
旧货店 | 1062.533142 | 407.141514 |
课堂 | 850.646333 | 320.507039 |
合计 | 3701.368603 | 1398.793948 |
Genoa 钻机的总得分为 3701,Monster 为 1788.2,Junkshop 为 1062.5,Classroom 基准测试为 850.6。 将 Genoa 与 Intel Xeon Platinum 进行比较在某些方面似乎不公平,考虑到 Intel 仅以大约 41% 的核心数量进行打击,但是,如果我们查看数据并对核心数量的差异进行标准化,结果会变得有趣. 得益于更新的架构、指令集和 DDR5 的使用,AMD Genoa 芯片比英特尔芯片快 10%。
2 个 AMD 9654 96 核 | 相对英特尔核心数百分比 | 2 个英特尔 8380 40 核 |
192 Core | 41.67 percent | 80 Core |
384主题 | 41.67 percent | 160主题 |
2 个 AMD 9654 96 核 | 2 个英特尔 8380 40 核 | |
搅拌机总分 | 3701 | 1399 |
内核/线程 | 192/384 | 80/160 |
英特尔核心数/AMD | 41.67 percent | |
直接分数比较 Intel/AMD | 37.79 percent | |
核心归一化 AMD 分数 | 1542 | |
相对 Intel/AMD,核心归一化 | 90.70 percent |
Cinebench R23
一段时间以来,Maxon 的 Cinebench 一直是基准测试的中流砥柱,这要归功于其标准化的测试方法以及使用实际测试来对多核和单核性能进行基准测试。 R23,Cinebench 的最新版本,确实有一个我们以前没有解决过的限制; 它只能对 256 个核心/线程进行基准测试。 我们的测试平台有 384 个。有趣的是,我们遇到的许多“标准”基准测试和应用程序的核心上限为 256 个,因此 Cinebench 并不是唯一一个需要为我们所引领的超核心数未来进行更新的人向。
为了尝试解决此限制,我们同时运行了两个测试,并将每个实例的上限限制为 196 个线程,以尝试平均分配负载。 通常,您可以在任务管理器中设置 CPU 亲和力,但是,某些东西阻止了 Cinebench 的此操作,我们怀疑它是在调用 API 以获取 CPU 优先级的底层方式中设置的标志。 我们尝试以权限较低的用户身份运行它,并使用命令行“start /affinity NODE 0”标志启动以尝试强制执行它,但无法将应用程序锁定到单个 NUMA 节点。
无法为程序分配特定的亲和力,我们只是运行应用程序两次并同时启动它们。 结果显示应用程序的两个实例的两个截然不同的分数,但是通过监控 CPU 使用率,我们能够观察到它在测试期间的利用率在 80 -100% 之间波动。
Cinebench 单实例 | 2 个 AMD 9654 96 核 | 2 个英特尔 8380 40 核 |
多线程(256 帽) | 85,160 | 70,540 |
单核 | 972 | 985 |
MP比率 | 87.65x | 71.63x |
2 个 Cinebench 实例 | ||
AMD 试运行 1 | AMD 试运行 2 | |
得分,一审 | 82,063 | 68,231 |
得分,二审 | 57,557 | 57,221 |
合计 | 139,620 | 125,452 |
总结
至少可以说,AMD EPYC 9004 CPU 的基准测试过程是一个有趣的练习。 我们在早期审查过程中面临的挑战表明,随着 CPU 格局转向超高密度模型,软件开发人员将不得不应对的总体挑战。 虽然有一些现成的应用程序可以利用它,但我们越来越多地发现无法扩展超过某些线程数阈值的软件的局限性。
在实验室中,我们正在研究一些本土的 Tensorflow 机器学习基准测试,以便能够在真实场景中测试这些新的 CPU。 当我们对新应用程序的结果有信心并在多个平台和多代 CPU 上对其进行验证时,我们将跟进结果。
不过就目前而言,AMD Genoa 的推出非常令人兴奋,正如我们迄今为止在 Quanta 服务器上看到的那样。 加, HPE 和 戴尔 已经发布了他们的服务器,每个都提供四个系统,两个 1 CPU 机箱和两个 2 CPU 机箱。 这将使 AMD Genoa 立即进入企业,迅速将 Genoa 的足迹扩大到超大规模。
那么一个大问题是显而易见的,AMD Genoa 值得投资吗? 这将归结为证明支出合理的工作量,但就像 适用于 VMware 的 DPU, 这些新的 CPU 技术在计算能力、安全性和效率方面有很大的帮助。 用这些取代第 3 代 EPYC 可能有点为时过早,但任何一直在等待跳跃理由的人都应该很高兴看到热那亚带来了什么。
我们有更多的测试和工作要做,随着 Intel Sapphire Rapids 即将推出,我们将希望比较每个提供的最佳性能。 但就目前而言,AMD 热那亚非常引人注目,应该出现在任何基础设施更新 PoC 中,这样组织就可以更好地了解 AMD 必须提供的所有这些内核和效率的影响。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅