Dell PowerEdge T560 塔式服务器专为本地 IT、虚拟化、数据库管理、AI 推理、私有云等而构建。 它由第四代 Intel Xeon 可扩展 CPU 提供支持,支持 24 个存储驱动器。
Dell PowerEdge T560 塔式服务器专为本地 IT、虚拟化、数据库管理、AI 推理、私有云等而构建。 它由第四代 Intel Xeon 可扩展 CPU 提供支持,支持 24 个存储驱动器。
Dell PowerEdge T560 塔式服务器规格
机架服务器并不适合所有企业,尤其是在没有数据中心的情况下。 在不存在传统服务器机房概念的边缘尤其如此。 这就是 PowerEdge T560 塔式服务器的用武之地,它具有适合办公室(低噪音)的设计。 较大的机箱还允许进行一些机架式服务器无法实现的独特配置,例如在前背板上混合使用 2.5 英寸托架和 3.5 英寸托架。
T560 支持两个 32 核第四代 Intel Xeon 可扩展处理器(“Sapphire Rapids”)、1TB 内存(16 个 RDIMM 插槽)以及多种可能的驱动器组合。 从这个意义上来说,它并不是一个小塔,相当于机架中的 4.5U,并支持八个冷却风扇。
该塔还具有大量扩展功能,具有六个 PCIe 插槽,其中两个是 x16 Gen5。 它可容纳两个双宽 300 瓦 GPU 或六个单插槽 75 瓦 GPU。
PowerEdge T560的完整规格如下:
处理器 | 最多两个4th 新一代 Intel Xeon 可扩展处理器,每个插槽最多 32 个内核 |
内存 |
|
存储控制器 |
|
驱动器托架 | 前海湾:
|
电源 |
|
风扇 | 多达八个标准 (STD) 风扇或高性能 (HPR) 风扇 |
尺寸 | 高度 — 464.0 毫米(18.26 英寸)(含支脚)
宽度 — 200.0 毫米(7.87 英寸)
|
外形 | 4.5U塔式服务器 |
嵌入式管理 |
|
开放管理软件 |
|
流动性 | OpenManage 移动版 |
OpenManage 集成 |
|
安全性 |
|
嵌入式网卡 | 平面上 2 个 1GbE LOM |
网络选项 | 1 个 OCP x8 卡 3.0
注意:系统允许在平面上安装 LOM 和 OCP 卡 |
GPU 选项 | 高达 2 x 300 W DW 或 6 x 75 W SW |
端口 | 接待:
背面:
内部:
|
PCIe | 最多六个 PCIe 插槽:
|
操作系统和管理程序 |
|
Dell PowerEdge T560 塔式服务器构建和设计
塔式服务器很少很小,PowerEdge T560 当然也不是,尺寸为 18.3 x 7.9 x 26.7 英寸(HWD)。 这款 4.5U 塔式设备从各个角度都令人印象深刻,首先是其热插拔驱动器托架。 我们的托架有八个 2.5 英寸和八个 3.5 英寸托架,右侧有两个支持 M.2 RAID 的冗余 BOSS 驱动器。
正面端口包括 2.0 个 USB 3.0、XNUMX 个 USB XNUMX 和 XNUMX 个 iDRAC Direct (Micro-AB USB) 端口。
3.5 英寸驱动器托架的右侧是 NVMe M.2 启动驱动器。
该塔式设备的背面有 2.0 个 USB 3.0、1 个 USB 3.0、XNUMX 个可选串行端口、用于 iDRAC 的 XNUMXGbE、XNUMX 个 VGA、XNUMX 个以太网端口和 OCP 插槽。 另一个 USB XNUMX 端口是可选的。
塔楼的侧门被拆除,以便进入内部; 布局看起来很像一个侧翻的标准服务器。 大部分内部都覆盖着巨大的气流引导装置。
八个热插拔风扇沿着中心线安装; 挤压橙色标签可以让它们自由。
每个 Xeon CPU 都有一个巨大的塔式散热器,两侧有八个 DIMM 插槽。 T560 支持高达 1TB 的总 RAM。
以下是驱动器托架后面的视图,包括 NVMe RAID 卡,此版本中还有第二个用于 HDD 的卡。
我们拥有配备五个 NVIDIA L4 GPU 的卓越配置,使其成为理想的推理平台。
夹在 GPU 之间的是另一个用于 OCP NIC 的小型气流护罩。
双热插拔电源位于顶部。
请观看我们的演示视频 对Instagram的.
Dell PowerEdge T560 塔式服务器性能
我们的审查单位具有以下配置:
- 2 个 Intel Xeon Gold 6448Y(每个 32 核/64 线程,225 瓦 TDP,2.1-4.1GHz)
- 8 个 1.6TB Solidigm P5520 SSD,带 PERC 12 RAID 卡
- 5 个 NVIDIA L4 GPU
- 8 个 64GB RDIMM
对于存储测试,我们在 JBOD 和 RAID 12 配置中利用连接到 PERC 6 RAID 卡的 SSD。 这与使用本机 NVMe 不同,在本机 NVMe 中,每个 SSD 都有自己的 x4 连接到主板。
VDBench 工作负载分析
在对存储设备进行基准测试时,应用程序测试是最好的,综合测试排在第二位。 虽然不能完美代表实际工作负载,但综合测试可帮助存储设备建立可重复性因素的基线,从而轻松在竞争解决方案之间进行同类比较。 这些工作负载提供了一系列测试配置文件,从“四个角”测试和常见的数据库传输大小测试到来自不同 VDI 环境的跟踪捕获。
所有这些测试都利用通用的 vdBench 工作负载生成器,以及一个脚本引擎来自动化和捕获大型计算测试集群的结果。 这使我们能够在各种存储设备上重复相同的工作负载,包括闪存阵列和单个存储设备。 我们针对这些基准测试的测试过程用数据填充整个驱动器表面,然后将驱动器部分分区为驱动器容量的 25%,以模拟驱动器如何响应应用程序工作负载。 这与完全熵测试不同,后者使用 100% 的驱动器并使它们进入稳定状态。 因此,这些数字将反映更高的持续写入速度。
简介:
- 4K 随机读取:100% 读取,128 个线程,0-120% 重复率
- 4K 随机写入:100% 写入,128 线程,0-120% iorate
- 64K 顺序读取:100% 读取,32 线程,0-120% 迭代
- 64K 顺序写入:100% 写入,16 个线程,0-120% 迭代
- 64K 随机读取:100% 读取,32 个线程,0-120% 重复率
- 64K 随机写入:100% 写入,16 线程,0-120% iorate
- 综合数据库:SQL 和 Oracle
- VDI 完整克隆和链接克隆跟踪
从4K随机读取开始,我们看到T560在RAID1.79中达到6万IOPS,在JBOD中达到4.86万IOPS。 除了 JBOD 结果结束时我们看到了一个小峰值之外,延迟得到了很好的控制。
RAID4 阵列的随机写入 6K 出现急剧上升; 它没有超过 415,000 IOPS。 另一方面,JBOD 配置在出现轻微不稳定之前达到了 3.9 万 IOPS。 不过,我们再次看到在峰值之前相对稳定的延迟。
接下来是顺序读取 64k; T560的RAID6阵列达到了8.2GB/s,而JBOD配置达到了近23GB/s。 线条没有表现出不稳定。
在顺序写入 560k 测试中,我们看到 T6 的 RAID64 阵列再次出现峰值,大约为 4GB/s。 JBOD 配置达到约 16.5GB/s,超过 14GB/s 时有些不稳定。
我们的混合70/30 8K测试显示线条相对平滑; RAID6阵列达到约670,000万IOPS,JBOD阵列达到1.93万IOPS。 两种情况下的延迟均得到控制。
接下来的测试是我们的 SQL 工作负载。 我们继续看到稳定的延迟,并且这里没有峰值。 RAID6 阵列的峰值刚刚超过 4 万 IOPS,而 JBOD 配置则高达 14 万 IOPS。
我们还运行了 Oracle SQL 工作负载测试,结果相似,这次 RAID6 阵列进一步超过 4 万 IOPS,JBOD 配置略高于 14 万 IOPS。
Windows Server 2022 性能基准
为了进行比较,我们选择了之前测试过的 R760。 这是CPU之间的比较。 两者具有相同数量的内核,尽管 T6448 内的 Xeon 560Y CPU 与 R6430 内的 Xeon 760 CPU 相比在整体时钟速度上具有优势。
戴尔 PowerEdge T560 – 英特尔至强 6448Y | 戴尔 PowerEdge R760 – 英特尔至强 6430 | |
---|---|---|
核心总数 | 32 | 32 |
线程总数 | 64 | 64 |
最大涡轮频率 | 4.10 GHz | 3.40 GHz |
处理器基本频率 | 2.10 GHz | 2.10 GHz |
Cinebench R23和R24
Maxon 的 Cinebench R23 是一个 CPU 渲染基准测试,利用所有 CPU 核心和线程。 我们对其进行了多核和单核测试。 分数越高越好。
随着最近发布的 24 版本,它引入了新的评分系统和在多个 GPU 上运行的能力。
测试 | 戴尔 PowerEdge T560(2 个至强金牌 6448Y) |
---|---|
CINEBENCH R23 多 | 73,622 |
CINEBENCH R23 集成的 | 1186 |
CINEBENCH R24 GPU | 97,984 |
CINEBENCH R24 多CPU | 3,976 |
CINEBENCH R24 单CPU | 3,976 |
搅拌机命令行界面
Blender 基准测试通过在 Blender 软件中渲染 3D 场景来衡量 CPU 或 GPU 的 3D 渲染性能。 它提供了一个分数,可用于比较不同系统和组件的性能。 数字以每分钟采样数为单位。
测试 | 戴尔 PowerEdge T560(2 个至强金牌 6448Y、5 个 NVIDIA L4) | 戴尔 PowerEdge R760(2 个至强金牌 6430、1 个 NVIDIA A2) |
---|---|---|
CPU Blender CLI – 怪物 | 582.085675 | 576.928413 |
CPU Blender CLI – Junkshop | 383.546707 | 376.557690 |
CPU Blender CLI – 课堂 | 275.857847 | 281.536442 |
GPU Blender CLI – 怪物 | 2,547.287378 | 479.238127 |
GPU Blender CLI – Junkshop | 1,348.087892 | 302.355378 |
GPU Blender CLI – 课堂 | 1,229.122455 | 248.540754 |
Geekbench 6
Geekbench 是一个跨平台基准测试。 我们使用 CPU 基准测试,它具有多个工作负载来模拟现实世界的任务和应用程序。
测试 | 戴尔 PowerEdge T560(2 个至强金牌 6448Y) | 戴尔 PowerEdge R760(2 个至强金牌 6430) |
---|---|---|
Geekbench 6 CPU 综合得分 | 18,572 | 12,971 |
Geekbench 6 CPU单项成绩 | 1,734 | 12,971 |
Geekbench 6 GPU dGPU 分数 – OpenCL | 157,380 | 未经测试 |
y 粉碎机
y-cruncher 是一个多线程且可扩展的程序,可以将 Pi 和其他数学常数计算到数万亿位。 自 2009 年推出以来,它已成为超频玩家和硬件爱好者流行的基准测试和压力测试应用程序。 在这里我们再次看到 PowerEdge R760 的 Xeon Gold 芯片具有轻微的性能优势。
测试 | 戴尔 PowerEdge T560(2 个至强金牌 6448Y) | 戴尔 PowerEdge R760(2 个至强金牌 6430) |
---|---|---|
y-cruncher 1b 计算时间 | 7.332 | 7.306 |
y-cruncher 2.5b 计算时间 | 20.102 | |
y-cruncher 10b 计算时间 | 97.32 | 91.435 |
GPUPI
GPUPI 3.3.3 是轻量级基准测试实用程序的一个版本,旨在通过 GPU 和 CPU 使用硬件加速来计算 π (pi) 到数十亿位小数。 它利用 OpenCL 和 CUDA 的计算能力,其中包括中央处理单元和图形处理单元。 我们在 5x L4 上运行 CUDA。
应用程序 | Dell PowerEdge T560(2 个 Xeon Gold 6448Y),带 5 个 NVIDIA L4 |
---|---|
GPUPI v3.3 – 1B | 0秒850毫秒 |
GPUPI v3.3 – 32B | 50秒361毫秒 |
UL Procyon AI 推理 (CPU)
UL 的 Procyon 人工智能推理 基准测试套件使用最先进的神经网络测试各种人工智能推理引擎的性能。 我们仅在 CPU 上运行这些测试。 下面的数字是平均推理时间; 总分是最后一行。
测试 | 戴尔 PowerEdge T560(2 个至强金牌 6448Y) | 戴尔 PowerEdge R760(2 个至强金牌 6430) |
---|---|---|
移动网络 V3 | 2.60 | 3.05 |
残差网络 50 | 6.12 | 6.79 |
盗梦空间V4 | 19.59 | 20.55 |
深实验室V3 | 23.68 | 31.27 |
优洛V3 | 29.63 | 32.58 |
真爱斯甘 | 1468.64 | 1498.36 |
总体得分 | 191 | 169 |
Dell T560 塔式服务器上的 GROMACS CUDA
为了释放配备 560 个 NVIDIA L5 GPU 的 Dell T4 塔式服务器的全部潜力,我们源编译了 GROMACS,这是一款专门针对 CUDA 的分子动力学软件。 此定制编译旨在利用 5 个 NVIDIA L4 GPU 的并行处理功能,这对于加速计算模拟至关重要。
该过程涉及使用 nvcc(NVIDIA 的 CUDA 编译器)以及适当优化标志的多次迭代,以确保二进制文件正确调整为服务器的架构。 GROMACS 编译中包含 CUDA 支持,使软件能够直接与 GPU 硬件连接,从而大大缩短复杂模拟的计算时间。
测试:Gromacs 中的定制蛋白质相互作用
利用社区提供的来自我们多样化 Discord 的输入文件(其中包含为特定蛋白质相互作用研究定制的参数和结构),我们启动了分子动力学模拟。 结果非常显着——系统的模拟速度达到了每天 170.268 纳秒。
GPU | 系统 | 纳秒/天 | 核心时间(秒) |
---|---|---|---|
英伟达 A4000 | 白盒 AMD 锐龙 5950x | 84.415 | 163,763 |
RTX NVIDIA 4070 | 白盒 AMD 锐龙 7950x3d | 131.85 | 209,692.3 |
5x NVIDIA L4 | 戴尔 T560 带 2 个英特尔至强金牌 6448Y | 170.268 | 608,912.7 |
仿真速度的意义
分子模拟的运行速度在各个行业中都至关重要。 例如,在制药领域,快速模拟功能可以使研究人员快速迭代分子设计和相互作用,从而显着加速药物发现。
在材料科学中,它可以加速具有所需性能的新材料的开发。 170.268 ns/天的速率意味着在较旧的服务器上需要花费近两周时间的模拟现在在配备普通 NVIDIA L560 的 Dell T4 上只需一天即可完成。 这不仅提高了生产力,还开辟了实时数据分析和决策的新领域。

T560 的 GROMACS 模拟输出
对科学研究的影响
与目前正在 10 年前的硬件上运行类似模拟的实验室进行的互动形成了鲜明的对比。 他们现有的设置需要 24 小时才能完成 Dell T560 只需几分钟即可实现的任务。 这种比较不仅凸显了现代处理器的进步,还展示了当前硬件可以为科学研究带来的价值。
借助戴尔 T560 塔式服务器,研究人员可以在更短的时间内进行更多实验,从而改善对科学进步至关重要的假设和测试的迭代周期。 这意味着曾经被认为对于常规探索来说过于资源密集的计算实验现在是可行的。
计算性能的人工智能应用
Dell T560 所展示的计算性能对研究领域具有广泛影响。 这不仅与速度有关,还与现在可以解决的问题的复杂性和规模有关。 借助这种计算能力,对整个生物系统、复杂化学反应甚至生态模型进行建模的大规模模拟变得更加可行。
随着人工智能和机器学习的出现,分子动力学模拟的高通量能够生成训练复杂模型所需的大量数据集。 这些模型可以在预测生物学、新型材料和下一代计算化学方面带来突破。
结语
Dell PowerEdge T560 塔式机为一般服务器使用和高级或专业任务(包括 GPU、计算和数据科学)带来了卓越的灵活性。 它在扩展和功率方面与机架服务器相匹配,并在某些方面超过了机架服务器,配备两个英特尔“Sapphire Rapids”至强可扩展处理器、1TB RAM、多种存储驱动器配置和多个 GPU 支持,但其塔式外形不需要一个数据中心。 尽管根据工作负载的不同,其风扇显然并不安静,但其风扇足够安静,可以在办公环境中使用。
我们的测试涉及 PowerEdge T560 功能的所有领域; 它在我们的存储和 CPU 测试中显示了可靠的数据,并通过我们的 4 个 NVIDIA L560 GPU 的特殊配置在 GPU 测试中展示了其实力。 我们还赞赏这座塔的简单维修性。 由于对最苛刻的人工智能工作负载的扩展性和适应性值得称赞,PowerEdge T2023 塔式机获得了我们的强烈推荐和认可,成为“XNUMX 年最佳”获奖者。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅