首页 企业 Dell PowerEdge R770 评测:模块化、强大且支持 AI

Dell PowerEdge R770 评测:模块化、强大且支持 AI

by 迪维扬什·贾恩

Dell PowerEdge R770 评测:英特尔至强 6 CPU、OCP DC-MHS 模块化、令人印象深刻的性能、灵活性以及密集 2U 机箱中的 AI 支持。

戴尔的 PowerEdge R7x0 系列服务器长期以来一直是数据中心的基石,以其卓越的制造质量、周到的设计、性能、密度和可靠性以及多功能 2U 外形而闻名。这些服务器一直在不断发展以满足不断变化的需求。现在,随着戴尔 PowerEdge R770 的推出,该系列取得了重大飞跃。

TR770 首次搭载了英特尔全新的 Xeon 6 处理器系列,包括 Xeon 6500 和 6700 P 和 E 核心处理器。它标志着戴尔首次在其主流服务器产品线中全面采用 OCP 数据中心模块化硬件系统 (DC MHS) 标准。这两项变化共同预示着功能和设计理念将发生重大变革。

Dell PowerEdge R770 英雄挡板

满足现代数据中心的需求

R770 的推出正值数据中心面临越来越大的压力之际。工作负载越来越多样化,要求越来越高。数据的不断增长推动了对强大分析和数据库的需求。从训练复杂模型到部署实时推理,人工智能不再是一个小众应用,而是一个需要大量计算能力和专业加速的核心业务驱动因素。

同时,人们也非常关注能源效率和优化总体拥有成本。此外,业界越来越希望采用开放标准来促进创新、增强互操作性并尽可能减少供应商锁定。R770 拥有新的处理器选项并采用 OCP DC MHS,旨在正面应对这些挑战。

Intel Xeon 6 P 核处理器

R770 处理器采用英特尔至强 6 系列处理器,包括 6700 和 6500 系列,集成基于 Socket E2 (LGA4710-2) 平台构建的性能和效率核心。在本次评测中,我们特别关注 P 系列 SKU。

Dell PowerEdge R770 CPU 块

英特尔采用基于模块的设计构建这些处理器,将 I/O 模块与一个或两个计算模块相结合。这实现了系列内的可扩展性,使用两个计算模块时配置最高可达 86 个 P 核心 (XCC),使用单个计算模块时配置最低可达 48 个 P 核心 (HCC) 或 16 个 P 核心 (LCC)。

与上一代 Sapphire 和 Emerald Rapids 处理器相比,这些处理器的一个关键区别在于所有 Xeon 6 处理器都普遍提供内置加速器。这包括用于加密和压缩的英特尔 QuickAssist 技术、用于数据移动的英特尔数据流加速器、用于数据库和分析加速的英特尔内存分析加速器以及用于网络处理效率的英特尔动态负载平衡器。 

内存和 I/O 带宽也得到了大幅升级。Xeon 6700/6500 P 核系列支持 8 通道 DDR5 内存。它们还为多路复用级 DIMM (MRDIMM) 铺平了道路,可提供高达 8,800 MT/s 的速度。在 I/O 方面,这些处理器支持 PCIe 5.0 和 CXL 2.0。在双插槽配置中,该平台每个插槽最多可提供 88 个 PCIe 通道(总共 176 个通道)。 

尽管 P 核和 E 核存在差异,但 Xeon 6 系列在指令集、BIOS、驱动程序、操作系统/应用程序支持和 RAS 功能方面保持一致,从而简化了不同部署类型的集成和管理。P 核变体针对的是每核性能、AI 加速、高内存带宽和大量 I/O 至关重要的工作负载;想想要求苛刻的数据库、HPC 模拟、高级分析和各种 AI 应用程序。

Dell PowerEdge R770 规格

Dell PowerEdge R770 后置 io

规格 戴尔PowerEdge R770
处理器 两个 Intel Xeon 6 处理器,每个处理器最多有 144 个 E 核或 86 个 P 核
内存 32 个 DDR5 DIMM 插槽,支持最大 8 TB RDIMM,速度高达 6400 MT/s,仅支持已注册的 ECC DDR5 DIMM
存储控制器 内部启动:启动优化存储子系统 (BOSS-N1 DC-MHS):HWRAID 1、2 x M.2 NVMe SSD 或 M.2 插入器板 (DC-MHS):2 x M.2 NVMe SSD 或 USB、内部控制器:前置 PERC H965i、前置 PERC H975i、前置 PERC H365i
前后托架
  • 无背板配置
  • 最多 8 个 EDSFF E3.S Gen5 NVMe (SSD),最大 122.88 TB,还配备 FIO 配置,
  • 最多 16 个 EDSFF E3.S Gen5 NVMe (SSD),最大 245.76 TB,还配备 FIO 配置,
  • 多达 32 个 EDSFF E3.S Gen5 NVMe (SSD),最大容量 489.6 TB
  • 最多 8 个 2.5 英寸 SAS/SATA/NVMe (SSD),最大 122.88 TB
  • 最多 8 个 2.5 英寸通用磁盘,最大 245.6 TB,最多 16 个 2.5 英寸 SAS/SATA (SSD),最大 61.44 TB
  • 最多 24 个 2.5 英寸 SAS/SATA (SSD),最大 92.16 TB,
  • 最多 16 个 2.5 英寸 SAS/SATA(SSD)+ 8 个 2.5 英寸 NVME)最大 92.16 TB
  • 多达 40 个 EDSFF E3.S Gen5 NVMe (SSD),最大容量 614.4 TB
  • 背面最多 4 个 EDSFF E3.S Gen5 NVMe (SSD),最大 61.2 TB
热插拔电源
  • 800 W 白金 100—240 VAC 或 240 VDC
  • 1100 W 白金 100—240 VAC 或 240 VDC
  • 1500 W 钛金 100—240 VAC 或 240 VDC
  • 1100 W 钛金 100—240 VAC 或 240 VDC
  • 3200 W 钛金 200—240 VAC 或 240 VDC
  • 800 W 钛金 100—240 VAC 或 240 VDC
  • 3200 W 277 VAC 和 336 HVDC 钛金
  • 1400 瓦 -48VDC 60 毫米
  • 1500 W 277 VAC 和 336 HVDC 钛金
  • 2400 W 钛金 100—240 VAC 或 240 VDC 1800 W HLAC 钛金版 200—240 VAC 或 240 VDC
冷却选项 空气冷却和直接液体冷却(DLC 是一种机架解决方案,需要机架歧管和冷却分配单元 (CDU) 才能运行)
风机 高性能银牌 (HPR SLVR) 风扇/高性能金牌 (HPR GOLD) 风扇,最多 6 个热插拔风扇
尺寸和重量 高度 – 86.8 毫米(3.42 英寸),宽度 – 482 毫米(18.97 英寸),重量 – 28.53 千克(62.89 磅),深度(后置 I/O 配置)– 802.40 毫米(31.59 英寸)(含挡板),801.51 毫米(31.56 英寸)(不含挡板),深度(前置 I/O 配置)– 814.52 毫米(32.07 英寸)(不含挡板)
外形 2U机架服务器
嵌入式管理 iDRAC、iDRAC Direct、带有 Redfish 的 iDRAC RESTful API、RACADM CLI、iDRAC 服务模块 (iSM)、NativeEdge Endpoint、NativeEdge Orchestrator
表圈 可选安全挡板
安全性 加密签名固件、静态数据加密(具有本地或外部密钥管理的 SED)、安全启动、安全组件验证(硬件完整性检查)、硅信任根、系统锁定、系统锁定(需要 iDRAC10 Enterprise 或 Datacenter)、机箱入侵检测、TPM 2.0 FIPS、CC-TCG 认证
网络选项
  • 4 个 OCP NIC 3.0 卡(可​​选)和 1GbE、10GbE、25GbE、100GbE 和 400GbE
  • 插槽 4 1 x 8 或 1 x 16 Gen5 OCP 3.0
  • 插槽 10 1 x 8 或 1 x 16 OCP 3.0,插槽 34 1 x 16 Gen5 OCP 3.0(位于前提升板上)
  • 插槽 38 前转接板上有 1 x 16 Gen 5 OCP 3.0
  • BOSS 插槽 34 1 x 4 BOSS,插槽 6 1 x 4 BOSS
GPU 选项 最多 6 个 75 W FHHL 或最多 2 个 350 W DWFL
端口 前端口:1 个 USB 2.0 C 型端口、1 个 USB 2.0 A 型端口(可选)、1 个 Mini-DisplayPort(可选)、1 个 DB9 串行(带前置 I/O 配置)、1 个用于 iDRAC 管理的专用以太网端口;后端口:1 个用于 iDRAC 管理的专用以太网端口、1 个 VGA、2 个 USB 3.1 A 型端口;内部端口:1 个 USB 3.1 A 型端口
PCIe
  • 最多两个 PCIe 插槽(x16 连接器)
  • 插槽 31 1 x 16 Gen5 全高 – 前提升板上的半长或全长
  • 插槽 36 1 x 16 Gen5 全高 – 前部提升板上的半长
  • 最多八个 PCIe 插槽(x8 和 x16 连接器)
  • 插槽 1 1 x 8 Gen5 全高 – 半长
  • 插槽 2 1 x 16 Gen5 双宽全长或 1 x 8 Gen5 全高 – 半长
  • 插槽 3 1 x 16 Gen5 全高 – 半长或 1 x 16 Gen5 薄型
  • 插槽 4 1 x 16 Gen5 全高 – 半长或 1 x 8 Gen5 全高 – 半长或 1 x 8 或 1 x 16 OCP 3.0
  • 插槽 5 2 x 16 Gen5 全高 – 半长或 1 x 8 Gen5 全高 – 半长
  • 插槽 7 1 x 16 Gen5 全高 – 半长或 1 x 16 Gen5 双宽全长或 1 x 8 Gen5 全高 – 半长,插槽 8 1 x 16 Gen5 全高 – 半长或 1 x 8 Gen5 全高 – 半长
  • 插槽 9 1 x 16 Gen5 全高 – 半长或 1 x 8 Gen5 全高 – 半长或 1 x 16 薄型 – 半长
操作系统和管理程序 Canonical Ubuntu Server LTS、带有 Hyper-V 的 Microsoft Windows Server、Red Hat Enterprise Linux、SUSE Linux Enterprise Server、带有 vSphere 的 VMware

Dell PowerEdge R770 采用 OCP DC MHS 模块化设计

来源:服务器/DC-MHS – OpenComputer

Dell PowerEdge R770 在物理设计和组件架构方面具有显著的进步和灵活性,采用了开放计算项目的数据中心模块化硬件系统 (OCP DC MHS) 标准。

Dell PowerEdge R770 SSD后视图

R7 延续了 R0x770 系列的传统,提供广泛的配置选项,以满足不同的部署需求。该系列的一大亮点是提供传统后置 I/O 配置和前置 I/O 冷通道可访问配置之间的选择,为不同的数据中心布局和可维护性要求提供了更大的灵活性。存储选项同样多样,从具有最少或没有本地存储的以计算为中心的节点到支持 40 个 E3.S 驱动器的高密度配置,用于以存储为中心的工作负载。

为了满足日益增长的加速计算需求,尤其是 AI 和 HPC,R770 拥有强大的扩展能力。根据机箱和转接卡配置,该服务器最多可容纳六张第五代 x5 全高全长 (FHFL) PCIe 卡。此外,它还支持安装两个双宽度 GPU,使其成为一个适用于各种任务的强大平台。通过 OCP 16 夹层插槽提供网络灵活性,根据配置支持 x3.0 或 x8 卡。

戴尔还实施了多项设计改进,旨在提高可维护性和可靠性。一个典型的例子是启动优化存储解决方案 (BOSS) 卡的演变。R770 中的 BOSS 控制器以前通过电缆连接并内置于 PCIe 转接卡中,现在作为 OCP 标准化卡实现,可直接与主板连接,从而消除了布线复杂性。这款新的 BOSS 控制器还具有更快的 NVMe M.2 驱动器,并集成了散热器,以确保启动设备的最佳工作温度和性能。对于技术人员来说,另一个微妙但实用的改进是从传统跳线转向更用户友好的 DIP 开关,用于清除 NVRAM 等功能。

最深刻的架构转变是完全采用 OCP DC MHS 标准。戴尔在前几代产品中就开始融入 OCP 元素,尤其是采用 OCP 3.0 网络适配器插槽。R770 在这方面更进一步。关键组件现在符合 OCP 规范,包括主机处理器模块 (HPM),通常称为主板,其中包括转接插槽等部件,现在是 M-XIO 连接器。 M-XIO 连接器为转接卡提供标准化接口,增强了灵活性和可升级性。iDRAC 还作为 OCP DC-SCM(服务器控制模块)实现。

此外,R770 还引入了新的 PICPWR 电源连接器,用于连接 GPU 和背板等外围设备。该连接器是一项重要的附加功能,可简化电力输送并集成在线电源监控。

这种深度集成使各种子系统的接口和外形尺寸标准化。虽然戴尔强调用户应坚持使用经过验证的组件以保证兼容性和支持,但底层标准化使许多部件本质上更易于用户维护,并且将来可能在兼容系统之间互换。

管理和 iDRAC

Dell PowerEdge R770 在功能丰富且广受欢迎的 iDRAC 9 的基础上添加了下一代 iDRAC 10,通过与数据中心安全控制模块 (DC-SCM) 无缝集成,增强了系统管理。这种集成可简化固件更新和配置管理,确保跨数据中心的一致且可扩展的操作。iDRAC 10 还支持高级自动化和监控功能,使 IT 管理员能够高效管理大规模部署,而不会影响性能或可靠性.

安全性是 R770 管理功能的基石,戴尔实施了强大的预启动和启动验证机制。利用基于硅的信任根技术,iDRAC 10 可确保所有固件(包括 BIOS 和 iDRAC)在执行前都经过加密验证。这种基于硬件的不可变安全措施可防止恶意软件篡改和供应链攻击,为系统运行提供安全基础。此外,R770 还采用量子安全启动协议来缓解新出现的加密威胁,进一步巩固其在保护关键基础设施方面的作用.

戴尔对供应链安全的承诺在 R770 的设计中得到了充分体现,该设计采用了全面的信任链认证流程。每个硬件组件都经过严格的验证,使用在制造过程中嵌入的加密签名。此流程确保仅使用授权固件和组件,从而降低与未经授权的修改或假冒部件相关的风险。

人工智能工厂的构建模块

R770 可以与多种 GPU 和机箱配置一起订购,使其成为适用于各种 AI 工作负载的多功能平台。这种灵活性及其强大的存储和网络功能使其成为在 AI 工厂部署 AI 解决方案的组织的理想选择。AI 工厂是指大规模创建、训练和部署 AI 模型所需的基础设施和工具。这些工厂对于开发自动驾驶汽车和机器人等先进系统至关重要,因为它们提供了高效处理海量数据集所需的计算能力和数据管道。

开发自动驾驶汽车和机器人系统需要大量反映真实场景的训练数据。NVIDIA 的 Cosmos NIM 是该领域的一项重大进步,为开发人员提供了强大的工具包,以加速创建和部署物理 AI 系统(如 World Foundational Models)。

了解世界基金会模型

世界基础模型 (WFM) 是一种复杂的神经网络,可以模拟真实世界环境并根据各种输入预测准确的结果。与专注于特定任务的传统 AI 模型不同,WFM 可以理解物理世界的动态,包括物理和空间属性. 它们可以根据文本提示、图像或其他输入数据生成视频,同时准确地表示运动、力和空间关系。

NVIDIA Cosmos NIM:迈向世界基础模型的垫脚石

NVIDIA 的 Cosmos NIM 是实现世界基础模型的关键一步。它们使组织和 AI 实验室能够生成合成训练数据,从而有效地扩展训练这些 AI 模型所需的数据。我们部署了 Cosmos 预测 模型,一种通用模型,可以从文本或视频提示中生成世界状态,并通过预测帧来合成连续运动。

这些是我们利用 Cosmos 仅用实验室的一张图像就做出的一些有趣的结果。虽然并非完美无缺,但它仅用一张图像就能做出的效果非常令人印象深刻。

R770 能够支持 N​​VIDIA H100 等高性能 GPU,并且具有强大的存储和网络功能,使其成为寻求部署 AI 解决方案的组织的理想选择。

通过利用 R770 的功能,组织可以高效地训练和部署 Cosmos NIM 等 AI 模型,从而加速自动驾驶汽车和机器人系统的开发。R770 的性能和可扩展性使其成为处理 AI 模型训练所需的大量数据的理想平台,其多功能性使其能够支持广泛的 AI 工作负载。

GPU 直接存储

GPU 直接存储是一种技术,它允许存储设备和 GPU 之间直接传输数据,绕过 CPU 和系统内存。在传统的数据传输中,数据从存储读取到 CPU 的内存中,然后复制到 GPU 的内存中。此过程涉及多次数据复制,导致延迟增加和性能降低。CPU 是瓶颈,需要处理存储和 GPU 之间的数据传输。GDS 通过直接允许存储设备将数据传输到 GPU 的内存和从 GPU 的内存传输数据来消除这一瓶颈。

我们对由 16 个驱动器组成的存储系统进行了 GDSIO 工作负载分析,逐步增加所用的驱动器数量,以了解存储性能及其饱和 PCIe Gen 5 GPU 的能力。

GDSIO 读取图表说明了增加 KIOXIA CD8P SSD 的数量如何影响 r770 中的总读取吞吐量和平均读取吞吐量。最初,随着驱动器数量从 50.2 个增加到 5 个,总读取吞吐量迅速增加,达到约 16 GiB/秒。这表明系统只需三到四个驱动器即可使 PCIe Gen 4 xXNUMX 饱和以进行数据加载。超过五个驱动器后,总吞吐量会稳定下来,这表明增加驱动器并不能显着提高。同时,每个驱动器的平均读取吞吐量在最多 XNUMX 个驱动器时保持稳定,但随着更多驱动器的添加而下降。每个驱动器性能的下降是因为更多驱动器共享可用的 PCIe 总线带宽,并且单个驱动器读取量减少。

相比之下,这些驱动器的写入性能远低于其读取性能。所有 16 个驱动器都实现了 46.7GiB/s 的写入带宽,驱动器的平均写入几乎保持不变。鉴于这些是 KIOXIA CD8 产品组合中写入性能较低的产品,高容量版本或其他 PCIe Gen5 SSD 的表现会更好。

对 Dell PowerEdge R770 进行基准测试

说到基准测试,R770 是戴尔的旗舰主线系统,因此将部署在许多不同的环境中。因此,我们为该平台运行了一套全面的基准测试,以了解该平台在不同环境中的表现。在一些测试中,我们比较了联想 ThinkSystem SR630 V4,以显示顶级 E 核和 P 核 CPU 之间的差异。

系统配置
  • CPU: 2 个 Intel Xeon 6787P(各 86 个核心)
  • RAM: 32x Micron 64 GB 双列 DDR5 6400 MT/s 总内存:2TB
  • 电源: 2x 台达 1500W
  • GPU: 1x NVIDIA H100 用于 TGI 基准测试,1x NVIDIA L4 用于其余测试
  • 线: 戴尔 BRCM 4P 25G SFP 57504S OCP 网卡
  • BOSS卡: BOSS-N1 DC-MHS 磁盘 0 和 1 SK 海力士 480 GB Dell NVMe ISE PE9010 RI M.2 480GB
  • 磁盘: 背板 0 中的 5-1:三星 6.4 TB、戴尔 NVMe PM1745 MU E3.S 6.4 TB

AI工作负载性能

文本生成推理基准

文本生成推理 (TGI) 是 Hugging Face 开发的一款高性能 LLM 推理服务器。它旨在优化 LLM 的部署和使用,是生产环境的理想选择。TGI 支持各种开源 LLM,并提供张量并行、token 流和连续批处理等功能,从而提高其性能和效率。

文本生成推理 – QwQ 32B

TGI 的基准测试功能用于评估其在不同配置和工作负载下的性能。TGI 的基准测试功能可以更准确地表示真实性能,因为它考虑到了在生产环境中提供 LLM 的复杂性。

使用 LLM 生成文本涉及两个主要阶段:预填充阶段和解码阶段。预填充阶段是初始步骤,LLM 在此阶段处理输入提示以生成必要的中间表示。此阶段计算量很大,因为它涉及在模型的一次正向传递中处理整个输入提示。

在预填充阶段,输入提示被标记化并转换为 LLM 可以处理的格式。然后,LLM 计算 KV 缓存,该缓存存储有关输入标记的信息。KV 缓存是一种关键数据结构,有助于生成输出标记。

相比之下,解码阶段是一个自回归过程,其中 LLM 每次生成一个输出标记,以预填充阶段生成的中间表示为基础。解码阶段严重依赖于预填充阶段生成的 KV 缓存,它为生成连贯且上下文相关的输出标记提供了必要的上下文。

预填阶段

随着批次大小从 1 增加到 32,这三个模型的延迟都会增加;DeepSeek-R1-Distill-Qwen-32 B 的延迟从批次大小为 29.97 时的 1 毫秒增加到批次大小为 76.95 时的 32 毫秒。同样,GEMMA-3-27B-IT 和 Qwen/QwQ-32B 的延迟分别从 51.84 毫秒和 29.90 毫秒增加到 79.58 毫秒和 76.30 毫秒。

相反,随着批处理大小的增加,令牌率显著提高。批处理大小为 1 时,这三个模型的令牌率范围为每秒 192.95 到 334.46 个令牌。批处理大小为 32 时,DeepSeek-R4158.67-Distill-Qwen-4021.40B、GEMMA-4194.13-1B-IT 和 Qwen/QwQ-32B 的令牌率分别飙升至每秒 3、27 和 32 个令牌。

LLM 预填阶段表现:延迟(毫秒)和令牌速率(令牌/秒)
批量大小 DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
延迟(ms) 代币率 延迟(ms) 代币率 延迟(ms) 代币率
1 29.97 333.64 51.84 192.95 29.90 334.46
2 30.21 662.09 52.55 380.61 29.95 667.80
4 32.40 1234.72 52.62 760.12 32.12 1245.47
8 36.98 2163.46 52.66 1519.19 36.69 2180.66
16 51.63 3125.50 60.96 2624.64 51.29 3147.61
32 76.95 4158.67 79.58 4021.40 76.30 4194.13
解码阶段

与预填充阶段不同,解码阶段的延迟在不同批次大小下保持相对稳定。例如,随着批次大小从 1 增加到 32,DeepSeek-R27.14-Distill-Qwen-29.52 B 的延迟范围从 2 毫秒到 32 毫秒。

解码阶段的令牌速率会随着批处理大小的增加而提高,尽管不如预填充阶段那样显著。批处理大小为 1 时,DeepSeek-R36-Distill-Qwen-37B 和 Qwen/QwQ-1B 的令牌速率约为每秒 32-32 个令牌,GEMMA-33.96-3B-IT 的令牌速率约为每秒 27 个令牌。批处理大小为 32 时,令牌速率分别增加到每秒 1083.83、873.39 和 1084.89 个令牌。

LLM 解码(令牌)性能:延迟(毫秒)和令牌率(令牌/秒)
批量大小 DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
延迟(ms) 代币率 延迟(ms) 代币率 延迟(ms) 代币率
1 27.24 36.71 29.45 33.96 27.24 36.71
2 27.14 73.70 30.80 64.93 27.14 73.69
4 27.50 145.46 31.33 127.65 27.47 145.62
8 27.91 286.61 32.54 245.83 27.90 286.78
16 28.31 565.07 34.71 460.92 28.44 562.56
32 29.52 1083.83 36.64 873.39 29.50 1084.89

这是意料之中的,因为预填充阶段会计算整个输入提示的初始隐藏状态和键值缓存,这可以很好地饱和 GPU,因为可以同时运行大型批量操作。处理提示后,模型会生成新的标记,通常一次一个。在每个步骤中,模型都会采用前一个标记和缓存的隐藏状态并生成下一个标记。由于此阶段实际上是逐个标记进行的,因此批量大小通常很小,因此 GPU 经常未得到充分利用。

Procyon AI 计算机视觉基准

Procyon AI 计算机视觉基准测试使用现实世界的机器视觉任务来评估 CPU、GPU 和 AI 加速器上的 AI 推理性能。它支持 TensorRT、OpenVINO、SNPE、Windows ML 和 Core ML 等多种推理引擎,提供有关效率、兼容性和优化的见解。

Procyon AI 计算机视觉基准测试结果还展示了强大的 AI 推理性能。该系统实现了较低的推理时间,MobileNet V3 为 20.64 毫秒,ResNet 50 为 22.42 毫秒。Inception V4 和 DeepLab 分别运行 65.23 毫秒和 41.37 毫秒,有效处理更复杂的视觉工作负载。关键对象检测模型 YOLO V3 处理时间为 37.80 毫秒,非常适合实时 AI 应用。计算密集型超分辨率模型 REAL-ESRGAN 记录了 1,159.22 毫秒,这使我们的总体 AI 计算机视觉得分达到 81 分。

AI计算机视觉(持续时间越短越好)(分数越高越好) Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存)
MobileNet V3 平均推理时间 20.64毫秒
ResNet 50 平均推理时间 22.42毫秒
Inception V4 平均推理时间 65.23毫秒
DeepLab 平均推理时间 41.37毫秒
YOLO V3 平均推理时间 37.80毫秒
REAL-ESRGAN 平均推理时间 1,159.22毫秒
人工智能计算机视觉总体得分 81

Hammer DB TPROC-C

我们还使用 HammerDB TPROC-C 基准测试模拟了 11.4.4 个仓库的 OLTP 工作负载,评估了四种流行的开源数据库(MariaDB 8.4.4、MySQL 5.7.44、MySQL 17.2 和 PostgreSQL 500)的性能。

MariaDB 的表现最佳,尤其是在双插槽配置中,它可以有效扩展并实现最高的交易吞吐量。MySQL 8.4.4 比旧版 5.7.44 有显著改进,突出了最近版本的增强功能。PostgreSQL 17.2 提供了稳定的性能,但略微落后于 MariaDB 和 MySQL 8.4.4。MariaDB 在单插槽上提供 3.15 万 TPM,在双插槽上提供 5.8 万 TPM,在两种情况下均优于其他产品。

性能对比表(每分钟事务数,TPM)

数据库引擎 单插槽 TPM 双插槽 TPM
玛丽亚数据库11.4.4 3,150,000 5,800,000
MySQL 8.4.4 2,850,000 5,150,000
PostgreSQL 17.2 2,700,000 4,900,000
MySQL 5.7.44 2,300,000 4,250,000

尽管 R770 的硬件性能强大,每个 CPU 有 86 个内核(混合了高优先级和低优先级内核),但当分布在两个插槽上时,所有数据库均未表现出显著的性能提升。这反映了开源数据库普遍偏爱单插槽执行,因为这样内核局部性更好,内存延迟也更低。

鉴于这些结果,R770 更适合在虚拟化环境中运行多个数据库实例,而不是扩展单个实例。该系统的架构非常适合支持高密度、混合数据库工作负载,利用性能和效率核心在多个实例上提供一致的吞吐量。

7-ZIP

流行的 7-Zip 实用程序的内置内存基准测试可测量系统 CPU 和内存在压缩和解压缩任务期间的性能,表明系统处理数据密集型操作的能力。

在 7-Zip 基准测试中,在压缩任务方面,戴尔系统的评分 (266.425 GIPS) 高于联想 (224.313 GIPS),而戴尔的 CPU 使用率略低。然而,联想在解压缩方面的表现优于戴尔,最终评分更高 (288.457 GIPS vs. 256.154 GIPS),CPU 使用率略高。戴尔的总体评分略高 (261.290 GIPS),表明其在压缩和解压缩任务中的整体效率更高。

7-Zip 压缩 & 减压 Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
压缩 – 当前 CPU 使用率 5267% 5064%
压缩 – 电流额定值/使用情况 5.061 吉普斯 4.341 吉普斯
压缩 – 额定电流 266.591 吉普斯 219.840 吉普斯
压缩 – 导致 CPU 使用率 5270% 5156%
压缩 – 最终评级/使用情况 5.056 吉普斯 4.350 吉普斯
压缩 – 最终评级 266.425 吉普斯 224.313 吉普斯
解压缩 – 当前 CPU 使用率 5623% 6184%
减压——当前评级/使用情况 4.586 吉普斯 4.688 吉普斯
减压——当前评级 257.909 吉普斯 289.879 吉普斯
解压缩 – 导致 CPU 使用率 5627% 6205%
减压——最终评级/使用情况 4.553 吉普斯 4.649 吉普斯
减压——最终评分 256.154 吉普斯 288.457 吉普斯
总计 – 总 CPU 使用率 5448% 5681%
总计 – 总评分/使用量 4.804 吉普斯 4.500 吉普斯
总计 – 总评分 261.290 吉普斯 256.385 吉普斯

y 粉碎机

y-cruncher 是一款流行的基准测试和压力测试应用程序,于 2009 年推出。此测试是多线程且可扩展的,可计算 Pi 和其他常量,最高可达万亿位。在此测试中,速度越快越好。这款软件在测试高核数平台方面表现出色,并展示了单插槽和双插槽平台之间的计算优势。

Y-cruncher 基准测试结果显示,搭载 P 核 CPU 的 Dell PowerEdge R770 与搭载 E 核 CPU 的 Lenovo ThinkSystem SR630 V4 之间存在显著的性能差距,尤其是在数据集大小增加的情况下。这并不是关于哪个系统更好,而是更多地展示在这种工作负载下 CPU 类型的比较情况。

对于较小的计算,戴尔系统已经领先,计算圆周率 1 亿位数字用时 2.753 秒,而联想则用时 5.997 秒,是戴尔的两倍多。随着工作量的增加,差距越来越大。计算 10 亿位数字时,戴尔用时 34.873 秒,不到联想 81.046 秒的一半。计算 50 亿位数字时,戴尔保持领先,用时 221.255 秒,而联想用时 476.826 秒,戴尔快 53%。

在 100 亿位数字下,联想无法完成测试,因为它当前配置为 512GB RAM。戴尔拥有 2TB RAM,能够高效处理工作负载,耗时 491.737 秒。

Y-cruncher(持续时间越短越好) Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
1亿 2.753秒 5.997秒
2.5亿 7.365秒 17.573秒
5亿 16.223秒 37.793秒
10亿 34.873秒 81.046秒
25亿 99.324秒 220.025秒
50亿 221.255秒 476.826秒
100亿 491.737秒

搅拌机优化

一款开源 3D 建模应用程序。此基准测试使用 Blender Benchmark 实用程序运行。分数以每分钟样本数计算,分数越高越好。

Blender 基准测试结果显示,戴尔 PowerEdge R770 的性能明显优于联想 ThinkSystem SR630 V4,尤其是在 CPU 渲染方面。在 CPU Monster 场景中,戴尔实现了每分钟 1,706.002 个样本,比联想的每分钟 19 个样本高出 1,432.09%。CPU Junkshop 测试进一步凸显了这一差距,戴尔达到了每分钟 1,169.370 个样本,比联想的每分钟 914.75 个样本高出 28%。同样,戴尔在 CPU Classroom 测试中每分钟的样本数为 791.475 个,而联想的样本数为每分钟 656.68 个,相差 20%。

联想系统缺少 GPU 也意味着它无法参与基于 GPU 的渲染,其中戴尔的 NVIDIA L4 在 Monster 上的得分为 1,895.71 样本/分钟,在 Classroom 上的得分为 950.42 样本/分钟。

Blender CPU 基准测试 Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
CPU 怪兽 (Blender 4.3) 1,706.002 个样本/分钟 1432.09 个样本/分钟
CPU 垃圾店 (Blender 4.3) 1,169.370 个样本/分钟 914.75 个样本/分钟
CPU 课堂 (Blender 4.3) 791.475 个样本/分钟 656.68 个样本/分钟
GPU 怪兽 (Blender 4.3) 1,895.712 个样本/分钟 (无 GPU)
GPU 垃圾店 (Blender 4.3) 950.424 个样本/分钟 (无 GPU)
GPU 课堂 (Blender 4.3) 968.432 个样本/分钟 (无 GPU)

Cinebench R23

Cinebench R23 基准测试工具通过使用 Cinema 3D 引擎渲染复杂的 4D 场景来评估系统的 CPU 性能。它测量单核和多核性能,全面了解 CPU 处理 3D 渲染任务的能力。

在 Cinebench R23 中,基准测试结果突显了 Dell PowerEdge R770 和 Lenovo ThinkSystem SR630 V4 在 CPU 性能方面的显著差异,尤其是考虑到每个处理器的内核数量。配备 630 个 Intel Xeon 4E 处理器(每个处理器 2 个内核)的 Lenovo ThinkSystem SR6780 V144 在 CPU 多核测试中的表现优于 Dell,得分为 99,266 分,而 Dell 得分为 74,710 分。这一差异反映了 Lenovo 在多线程工作负载方面的优势,这要归功于其内核数量(总共 288 个内核),而 Dell 的 2 个 Intel Xeon 6787P 处理器(每个处理器 86 个内核)限制了其多核性能。

在CPU单核测试中,戴尔表现更佳,得分为1,272分,超过联想的894分,凸显出戴尔虽然核心数较少,但单线程效率却更胜一筹。

Cinebench R23 Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
CPU 多核 74,710点 99,266点
CPU单核 1,272点 894点
MP比率 58.74点¯x 111.00点¯x

Cinebench 2024

Cinebench 2024 通过添加 GPU 性能评估扩展了 R23 的基准测试功能。它继续测试 CPU 性能,但也包括衡量 GPU 处理渲染任务能力的测试。

在此更新的基准测试中,Dell PowerEdge R770 的 GPU 性能得分为 12,996 分,凸显了其处理 GPU 加速渲染任务的能力。联想 ThinkSystem SR630 V4 没有专用 GPU,因此没有记录 GPU 分数。

在CPU多核测试中,联想得分2,884分,略高于戴尔的2,831分,说明联想在多核性能上略胜一筹。在CPU单核测试中,戴尔的表现优于联想,得分71分,而联想得分为53分,说明戴尔虽然核心数较少,但单核性能却更高。

Cinebench R24 Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
GPU 分数 12,996点
CPU 多核 2,831点 2,884点
CPU单核 71点 53点
MP比率 39.77点¯x 54.43点¯x

Geekbench 6

Geekbench 6 是衡量整体系统性能的跨平台基准测试。Geekbench 浏览器可让您将任何系统与其进行比较。

Geekbench 6 基准测试结果显示,戴尔 PowerEdge R770 和联想 ThinkSystem SR630 V4 之间存在明显的性能差异。在 CPU 单核测试中,戴尔以 1,797 分的成绩优于联想,而联想的得分为 1,173,这表明戴尔的单核性能提高了 53%。

在 CPU 多核测试中,戴尔再次以 15,880 分领先,而联想则得分为 13,868,戴尔在多核性能方面领先 14%。这表明戴尔的 Intel Xeon 6787P 处理器提供了卓越的整体计算能力,尤其是在受益于多核的任务中。

GPU OpenCL 测试进一步凸显了戴尔的优势,得益于 NVIDIA L148,730 GPU,其得分达到了 4。

Geekbench 6(越高越好) Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
CPU单核 1,797 1,173
CPU 多核 15,880 13,868
GPU OpenCL 分数 148,730 (无 GPU)

Blackmagic RAW 速度测试

Blackmagic RAW Speed Test 是一款性能基准测试工具,旨在衡量系统使用 Blackmagic RAW 编解码器处理视频播放和编辑的能力。它评估系统解码和播放高分辨率视频文件的能力,为基于 CPU 和 GPU 的处理提供帧速率。

在基于 CPU 的测试中,Dell PowerEdge R770 达到了 141 FPS,优于得分为 630 FPS 的 Lenovo ThinkSystem SR4 V120。这表明 Dell 系统处理基于 CPU 的视频比 Lenovo 更高效。在基于 GPU 的测试中,Dell PowerEdge R770 得分为 157 FPS,这得益于 NVIDIA GPU 的存在。

Blackmagic RAW 速度测试(速度越高越好) Dell PowerEdge R770(2 个英特尔至强 6787P | 2TB 内存) 联想 ThinkSystem SR630 V4(2 个英特尔至强 6780E | 512GB 内存)
每秒帧数 (FPS) FPS 141 FPS 120
射击游戏 FPS 157 0 FPS(无 GPU)

Blackmagic磁盘速度测试

Blackmagic Disk Speed Test 可对硬盘的读写速度进行基准测试,评估其性能,尤其是视频编辑任务的性能。它可以帮助用户确保其存储速度足以满足高分辨率内容(如 4K 或 8K 视频)的需要。

在 Blackmagic 速度测试中,搭配镜像 SK 海力士 770GB Dell NVMe 的 Dell PowerEdge R480 boss 卡实现了 3,010.3 MB/s 的读取速度和 976.3 MB/s 的写入速度。

结语

Dell PowerEdge R770 确实让我们感到兴奋,因为它采用了开放计算项目的数据中心模块化硬件系统标准和尖端硬件。OCP DC MHS 的集成带来了许多好处,包括增强的模块化、改进的可维护性以及通过提高标准化可能降低的成本。从将 iDRAC 作为 OCP DC-SCM 实施到端口,这种设计理念在系统的各个方面都得到了体现。

R770 还拥有出色的存储能力,在单个 40U 机箱中支持多达 3 个 E2.S 驱动器,是存储密集型工作负载的理想解决方案。此外,服务器的灵活性通过支持各种配置而得到进一步增强,包括前置 I/O 冷通道可访问配置,为不同的数据中心布局和可维护性要求提供更大的灵活性。

R6 支持多种 GPU 和英特尔至强 770 性能核心 CPU,是一款真正强大的多功能服务器平台,非常适合满足现代数据中心的需求。其尖端硬件、模块化设计和强大的安全功能使 R770 成为希望部署 AI、HPC 和传统企业工作负载的组织的诱人选择。

戴尔PowerEdge

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅