XNUMX 月,AMD 宣布更新其 第四代 AMD EPYC(霄龙)系列 专为满足企业需求所需的专门工作负载而设计的处理器。 这些公告是在 AMD 数据中心和人工智能技术首映式开幕式上发布的,同时推出了第四代 AMD EPYC 4X97 处理器(之前代号为 AMD Bergamo)。 AMD EPYC 4X97 处理器针对 AI 应用程序和在云中运行的应用程序提供更大的 vCPU 密度和更高的性能。
XNUMX 月,AMD 宣布更新其 第四代 AMD EPYC(霄龙)系列 专为满足企业需求所需的专门工作负载而设计的处理器。 这些公告是在 AMD 数据中心和人工智能技术首映式开幕式上发布的,同时推出了第四代 AMD EPYC 4X97 处理器(之前代号为 AMD Bergamo)。 AMD EPYC 4X97 处理器针对 AI 应用程序和在云中运行的应用程序提供更大的 vCPU 密度和更高的性能。
AMD贝加莫
AMD EPYC Zen 4 处理器配备 3D V-Cache,代号 Genoa-X,在最近的一次技术计算中被确定为领先的 x86 服务器 CPU 规范.org 报告。 这些处理器将 3D V-Cache 引入 96 核 Zen 4 芯片,非常适合要求苛刻的技术计算工作负载。
AMD 表示,根据客户环境调整其产品路线图可以提供通用、云原生和技术计算工作负载所需的性能。 AMD 采取的立场是,一种方法并不适用于所有情况。 这些新的 AMD EPYC 处理器就是围绕这一概念而设计的,旨在为特定工作负载提供更高的性能。
应用程序越来越多地针对云原生工作负载进行设计,从而允许快速开发、部署和更新。 AMD EPYC 97X4 处理器拥有 128 个核心,与 Ampere 相比,可以提供更好的吞吐量,关键云原生工作负载的性能提高了 3.7 倍。
型号 | 颜色 | 最大线程数 | 默认热设计功耗 (W) | 基频 (GHz) | 升压频率1 (GHz) | 三级缓存 (MB) |
9754 | 128 | 256 | 360W | 2.25 | 3.10 | 256 |
9754S | 128 | 128 | 360W | 2.25 | 3.10 | 256 |
9734 | 112 | 224 | 320W | 2.20 | 3.00 | 256 |
为了满足更快的设计迭代和全面模拟的需求,具有 4D V-Cache 的第四代 AMD EPYC 处理器为计算流体动力学 (CFD)、有限元分析 (FEA) 等技术计算工作负载提供一流的 x3 CPU 、电子设计自动化(EDA)和结构分析。 这些处理器拥有多达 86 个“Zen 96”核心和 4GB 以上的 L1 缓存,可以显着加快产品开发速度。
型号 | 颜色 | 最大线程数 | 默认热设计功耗 (W) | 基频 (GHz) | 升压频率1 (GHz) | 三级缓存 (MB) |
9684X | 96 | 192 | 400W | 2.55 | 3.70 | 1,152 |
9384X | 32 | 64 | 320W | 3.10 | 3.90 | 768 |
9184X | 16 | 32 | 320W | 3.55 | 4.20 | 768 |
AMD 贝加莫和 Genoa-X 基准测试
我们测试了两个新的 CPU,并通过禁用 SMT 模拟了第三个。 在实验室中,我们有 9754(128 核 256 线程 Bergamo 芯片)和 9684X(96 核 192 线程 Genoa-X 芯片),具有海量 1.1 GB 3D L3 缓存和比 Genoa 更高的时钟。 为了模拟第三个,我们在 9754 上禁用了 SMT,因为 AMD 还发布了 9754S Bergamo 芯片,该芯片没有多线程,只是纯核心。 我们对 SMT 禁用芯片的测试将独立于本次审查。
我们进行了一系列广泛的基准测试来评估新发布的 AMD Bergamo 和 Genoa-X CPU 的性能。 我们首先对多核和单核配置进行 Cinebench R23 测试,该测试提供了有关这些处理器渲染功能的宝贵见解。
看来应用程序 Cinebench R23 本身在处理如此多线程方面受到限制。 我们注意到 128 个核心的上限,但 96 核心 Genoa-X 3D 缓存的性能确实很出色,这些主题在所有测试中都是常见的。
接下来,我们在 1 亿和 10 亿位数字级别运行 y-cruncher,以评估它们的计算能力,特别是涉及高度数字运算的任务。
这里越低越好,我们的 2 处理器 96 核 Genoa 结果经过了一些广泛的调整,并且能够提供一些不错的数字,并且 Genoa-X 和 Bergamo 芯片的库存配置显示出一些有希望的调整和调整潜力创造了一些更令人印象深刻的创纪录数字。
然后,我们使用 Blender 基准测试,特别是 Monster、Junkshop 和 Classroom 测试,来衡量这些 CPU 在图形密集型渲染场景中的表现。
在 Blender 基准测试中,512 线程的原始能力真正得到了体现,再次以库存配置位居榜首。
最后,我们进行了 Geekbench 6 CPU 测试,该测试以广泛检查单核和多核操作中的处理器性能而闻名。 这套测试使我们能够全面了解 AMD Bergamo 和 Genoa-X 处理器的整体功能、优势和增量改进。
绩效概述
以下是每个基准的原始分数。 请记住,我们花了几个月的时间在 96 核 Genoa 系统上进行调优和配置,并且只运行了新 AMD Bergamo 的库存配置。
基准 | 2p/96c 热那亚 | 1p/96c 热那亚-X | 1p/128c 贝加莫 | 2p/128c 贝加莫 | |
---|---|---|---|---|---|
Cinebench R23 Multi | 116744 | 93720 | 103876 | 102125 | |
Cinebench R23 Single | 1294 | 1301 | 1098 | 1089 | |
Cinebench MP 比率 | 90.22 | 72.04 | 94.65 | 93.75 | |
y 型破碎机 1b | 8.882 | 10.296 | 9.568 | 9.184 | |
y 型破碎机 10b | 51.071 | 72.377 | 80.171 | 55.683 | |
搅拌机怪物 | 1700.647985 | 879.580323 | 1031.49474 | 2038.714424 | |
搅拌机垃圾店 | 1101.839271 | 605.445705 | 704.167826 | 1382.575225 | |
搅拌机教室 | 869.476693 | 421.318478 | 506.665693 | 1045.959162 | |
Geekbench 6 CPU 单 | 2048 | 2093 | 1738 | 1723 | |
Geekbench 6 CPU 多 | 20217 | 21329 | 18683 | 17916 |
AMD 贝加莫人工智能
配备一系列来自顶级供应商的人工智能推理引擎, UL Procyon 人工智能推理基准 迎合广泛的硬件设置和要求。 基准分数提供了设备上推理性能的方便和标准化的总结。 这使我们能够比较和对比现实世界中的不同硬件设置,而无需内部解决方案。
处理器 | 型号 | 平均推理时间 | 中值推理时间 | 总推论计数 |
---|---|---|---|---|
2p/96c 热那亚 | 移动网络 V3 | 3.61毫秒 | 3.63毫秒 | 45,800 |
1p/96c 热那亚-X | 移动网络 V3 | 2.71毫秒 | 2.72毫秒 | 58,631 |
1p/128c 贝加莫 | 移动网络 V3 | 3.90毫秒 | 3.91毫秒 | 41,538 |
2p/128c 贝加莫 | 移动网络 V3 | 4.10毫秒 | 4.16毫秒 | 40,008 |
2p/96c 热那亚 | 残差网络 50 | 6.36毫秒 | 6.34毫秒 | 26,525 |
1p/96c 热那亚-X | 残差网络 50 | 6.66毫秒 | 6.64毫秒 | 25,049 |
1p/128c 贝加莫 | 残差网络 50 | 10.14毫秒 | 10.08毫秒 | 16,919 |
2p/128c 贝加莫 | 残差网络 50 | 8.21毫秒 | 8.22毫秒 | 20,842 |
2p/96c 热那亚 | 盗梦空间V4 | 25.98毫秒 | 25.99毫秒 | 6,555 |
1p/96c 热那亚-X | 盗梦空间V4 | 29.19毫秒 | 29.18毫秒 | 5,879 |
1p/128c 贝加莫 | 盗梦空间V4 | 33.17毫秒 | 33.04毫秒 | 5,158 |
2p/128c 贝加莫 | 盗梦空间V4 | 30.63毫秒 | 30.68毫秒 | 5,573 |
2p/96c 热那亚 | 深实验室V3 | 25.51毫秒 | 25.33毫秒 | 5,660 |
1p/96c 热那亚-X | 深实验室V3 | 28.26毫秒 | 27.86毫秒 | 5,394 |
1p/128c 贝加莫 | 深实验室V3 | 32.16毫秒 | 32.09毫秒 | 4,708 |
2p/128c 贝加莫 | 深实验室V3 | 31.16毫秒 | 30.57毫秒 | 4,807 |
2p/96c 热那亚 | 优洛V3 | 34.10毫秒 | 34.13毫秒 | 4,818 |
1p/96c 热那亚-X | 优洛V3 | 43.59毫秒 | 43.58毫秒 | 3,831 |
1p/128c 贝加莫 | 优洛V3 | 44.50毫秒 | 44.39毫秒 | 3,739 |
2p/128c 贝加莫 | 优洛V3 | 41.35毫秒 | 41.38毫秒 | 4,001 |
2p/96c 热那亚 | 真实ESRGAN | 2540.04毫秒 | 2524.03毫秒 | 71 |
1p/96c 热那亚-X | 真实ESRGAN | 3725.07毫秒 | 3720.35毫秒 | 49 |
1p/128c 贝加莫 | 真实ESRGAN | 2734.77毫秒 | 2717.41毫秒 | 66 |
2p/128c 贝加莫 | 真实ESRGAN | 2291.66毫秒 | 2301.35毫秒 | 79 |
总结
我们对新的 128 核 AMD Bergamo CPU 进行的测试反映了核心数量增加带来的预期收益。 就原始性能而言,新的 CPU 可以轻松地处理数据和计算密集型任务,几乎毫不费力。 我们对 3D 渲染和计算应用程序的试验尤其展示了这些额外核心的真正实力。
我们注意到,无论是否启用 SMT,处理速度均较 96 核 Genoa 显着提升,凸显了 AMD 小芯片设计的效率。 随着我们深入研究先进的超高核心数计算时代,这款 128 核心、256 线程的怪物在机架密度方面树立了新的基准。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅