在发表我们的评论时 戴尔PowerEdge R760 服务器方面,我们故意推迟了存储数量,并指出 R760 有许多存储配置选项,这些选项会使最初的审查时间过长。 在本次评测中,我们将深入研究 Dell PowerEdge 支持 Gen4 NVMe SSD 的存储选项,以及戴尔所谓的直接驱动器与 PERC 12 硬件 RAID 卡的性能概况。
在发表我们的评论时 戴尔PowerEdge R760 服务器方面,我们故意推迟了存储数量,并指出 R760 有许多存储配置选项,这些选项会使最初的审查时间过长。 在本次评测中,我们将深入研究 Dell PowerEdge 支持 Gen4 NVMe SSD 的存储选项,以及戴尔所谓的直接驱动器与 PERC 12 硬件 RAID 卡的性能概况。
Dell PowerEdge NVMe 背板选项
戴尔在其 16G PowerEdge 服务器中提供各种存储背板。 配置 R760 时,有近 50 个驱动器机箱可供选择。 虽然其中一些是传统支持(例如 PERC 11),但关键是机箱决定是一个重大决定。 这甚至没有考虑即将推出的 E3.S NVMe SSD 支持,这是在 PowerEdge 服务器中获取 Gen5 SSD 的唯一方法。 我们看了 Dell PowerEdge R3 中的 E660.S 如果您想了解有关 Gen5 和 EDSFF 外形尺寸的优势的更多信息。
回到手头的任务。 在本次评测中,我们希望了解选择戴尔直接驱动器选项与 PERC 12 HWRAID 卡选项相比的影响。 如前所述,此处的明确重点仅考虑 Gen4 U.2/U.3 NVMe SSD。 目前,我们忽略 SATA/SAS 和 3.5 英寸 HDD 的机箱选项。 这些配置要简单得多。
在 R760 中,戴尔提供了几个机箱选项来安装 Gen4 NVMe 驱动器。 直接驱动器选项可配置为支持 8 或 16 个驱动器。 对于 HWRAID 配置,戴尔以相同的方式提供 PERC 12 HWRAID 卡,每批 8 个 SSD 使用一张 RAID 卡。 这一决定很重要,因为它对于让配备 760 个 NVMe SSD 的完全填充的 R16 获得最佳性能至关重要。
戴尔 PERC 12 概述
Dell PowerEdge RAID 控制器 (PERC) 12 基于 Broadcom SAS4116W 芯片。 尽管产品名称中包含 SAS,但该控制器是三模式 RAID-on-Chip (ROC) 设备。 Broadcom MegaRAID 系列中使用相同的 RAID 控制器。 我们最近回顾了 兆兆RAID 9670W 突出关键能力。 然而,对于 Dell PERC 12,根据您感兴趣的戴尔服务器和存储系列,基本的设计差异会发挥作用。
关于 PowerEdge,大多数配置将利用“H965i Front”PERC 12 卡。 在我们对带有 HWRAID 的 R760 系统的评测中,我们在系统中有两张 H965i 前置卡,每组一张用于 8 个 Solidigm P5520 SSD。 值得一提的是,这些卡比附加卡小得多。 PCB 设计和热管理确实令人印象深刻。 这些卡直接安装到 8 驱动器 NVMe 背板上,并通过两根 x8 PCIe 电缆连接到主板。 这可以释放服务器读取端的 PCIe 插槽以供其他设备使用。
说到附加卡,标准 PERC 12 H965i 是一款半高半长的卡,包含板载风扇。 此版本的 PERC 12 将出现在一些 PowerEdge 配置中,也可以在一些新的配置中找到。 Dell PowerVault MD JBOD。 最后,还有 H965i MX,它是一个又长又窄的 PCB,专为 MX7000 模块化机箱而设计。
戴尔 PERC 11 与 PERC 12
Dell PERC 11 卡确实支持 NVMe SSD,但不幸的是,硬件 RAID 的优势是以巨大的性能成本为代价的。 这一成功正是业界对博通新芯片和戴尔版本的 PERC 卡如此兴奋的原因。 戴尔公布了一些数据 PERC 11 和 PERC 12 之间的差异令人震惊。
PERC 12 的延迟优势显而易见; 但看看最坏情况下的性能,即重建期间的性能。 PERC 12 获得了数千% 的改进,甚至 RAID 重建时间也有显着的优势。
查看戴尔引用的带宽和 IOPS 数字,我们可以再次看到 PERC 12 与 PERC 11 相比向前迈出的巨大一步。总体而言,所有这些工作负载在 PERC 2 卡中至少提高了 12 倍。 当然,我们已经完成了测试来检查 PERC 12 的性能,我们将会进行测试。
戴尔直驱与戴尔 PERC 12 性能对比
为了比较 Direct Drive 与 PERC 12 的存储性能,我们将 R760 服务器“表兄弟”配置为 Solidigm P5520 7.68TB 固态硬盘。 带直接驱动器的戴尔 R760 有 8 个 NVMe 托架。 采用 PERC 760 的 R12 具有 16 个 NVMe 托架,配有双 H965i 前置 RAID 卡。
从表面上看,双方都存在某些性能限制可能并不明显。 从直接驱动器方法开始,每个 SSD 都有自己的 x4 PCIe 连接,这意味着 32 个 SSD 有 XNUMX 个 PCIe 通道专用。
这可以实现令人难以置信的带宽,如果每个 Gen52 驱动器可以使其 4GB/s 连接饱和,则通常可以超过 6.5GB/s。 与 PERC 12 H965i 设置相比,每组八个 SSD 直接与 RAID 卡连接,RAID 卡通过 x16 PCIe 连接连接回主板。 这会将 Direct Drives 配置支持的带宽减少一半。 很明显,原生 NVMe 连接获胜? 不完全是。
当处理多 CPU 系统中的多个 NVMe 设备时,驱动器和 CPU 之间的 NUMA 映射以及系统中断就会发挥作用。 这可以进行优化,但需要大量调整。 并非所有应用程序都考虑到这一点。
虚拟化是管理 NUMA 映射的一大挑战,因为共享资源是实时平衡的,有时 CPU 可能无法直接访问那些分配的 PCIe 资源。 硬件 RAID 卡可以缓解其中的许多问题,并针对系统中断和上下文切换进行优化,从而释放 CPU 资源。 NUMA 映射也变得不那么复杂,因为每个 CPU 仅需管理一张存储卡,而不是将 16 个独立 SSD 分布在两个 CPU 上。
我们的测试计划侧重于两个领域。 第一个是 Vdbench 工作负载,使用传递到任一 R760 的八个 SSD 来测量 JBOD 性能。 Direct Drives R760 上有八个本机 SSD,而在 HWRAID R760 上,PERC 12 通过八个原始存储设备。 两者均按原样进行测试,未进行优化。 第二阶段测试展示了 PERC 2 解决方案从单卡设置到优化双卡设置的扩展性能。
我们的 Direct Drives PowerEdge R760 评测设备具有以下配置:
- 双 Intel Xeon Gold 6430(32 核/64 线程,1.9GHz 基础)
- 1TB DDR5 内存
- 8 个 Solidigm P5520 7.68TB Gen4 SSD
- RHEL 9
HWRAID NVMe PowerEdge R760 评测单元具有以下配置:
- 双 Intel Xeon Gold 6430(32 核/64 线程,1.9GHz 基础)
- 1TB DDR5 内存
- 16 个 Solidigm P5520 7.68TB Gen4 SSD
- 双 PERC 12 H965i
- RHEL 9
Vdbench 工作负载分析
对存储设备进行基准测试时,最好进行应用程序测试,然后进行综合测试。 虽然不能完美地代表实际工作负载,但综合测试有助于通过可重复性因素确定存储设备的基线,从而可以轻松地在竞争解决方案之间进行同类比较。 这些工作负载提供了一系列测试配置文件,从“四个角”测试和常见数据库传输大小测试到来自不同 VDI 环境的跟踪捕获。
这些测试利用典型的 Vdbench 工作负载生成器和脚本引擎来自动化并捕获大型计算测试集群的结果。 这使我们能够在各种存储设备(包括闪存阵列和单个存储设备)上重复相同的工作负载。 我们对这些基准测试的测试过程会用数据填充整个驱动器表面,然后对相当于驱动器容量 25% 的驱动器部分进行分区,以模拟驱动器如何响应应用程序工作负载。 这与完整的熵测试不同,后者使用 100% 的驱动器并使它们进入稳定状态。 因此,这些数字将反映更高的持续写入速度。
简介:
- 4K 随机读写:100% 读取或写入,128 个线程,0-120% iorate
- 64K 顺序读取:100% 读取,32 个线程,0-120% IOrate
- 64K 顺序写入:100% 写入、16 个线程、0-120% iorate
- 4K 70R/30W 和 90R/10W 随机混合,64 线程,0-120% 像素
看看我们的第一个针对读取传输带宽的测试,我们可以看到具有 32 个 PCIe 通道的 Direct Drives 方法比具有 12 个通道的单个 PERC 16 具有 PCIe 通道优势。 在 JBOD 模式下,直接驱动器的计算结果为 41.6GB/s,而 PERC 28 的计算结果为 12GB/s。
从读取带宽切换到写入带宽时,由于 Solidigm P5520 的写入速度低于读取速度,额外 PCIe 通道的优势会缩小。 此处,Direct Drives 配置测得的速度为 18.3GB/s,而 PERC 20.3 的速度为 12GB/s。
在我们的随机 4K 读取工作负载中,Direct Drive PowerEdge R8 中的 5520 个 Solidigm P760 SSD 测得 5.55 万 IOPS 峰值,而 PERC 4.34 设置上的 12 万 IOPS。
在 4K 随机写入中,这种差异再次缩小,Direct Drive 测量为 3.96M IOPS,而 PERC 4.15 上为 12M IOPS。
在两个混合工作负载中的第一个中,我们研究了具有 4/70 读/写分布的 30K 随机传输。 此处,Direct Drives PowerEdge R760 配置测得的峰值 IOPS 为 4.47M,而 PERC 12 的峰值为 3.66M IOPS。
在相同的 90K 传输测试中将读取百分比提高到 4%,我们测得 Direct Drives 服务器的 IOPS 为 5.04 万,而 PERC 3.62 系统的 IOPS 为 12 万。
FIO工作负载分析
为了测量戴尔 Direct Drive 和 PERC 12 HWRAID 产品的驱动器性能,基准测试分为以下配置。 第一个包括测量 RAID、RAID10 和 RAID5 配置之外的每个驱动器的 JBOD 配置。
对于直接驱动器方法,SSD 会正常显示给操作系统; 对于 PERC 12,它们作为原始存储设备通过 HBA。 这些配置通过一个脚本流程来预处理闪存,运行它们所适应的测试,并转移到下一个预处理/工作负载组合。
- 顺序预处理
- JBOD、8DR10、8DR5(单和双 PERC)的顺序测试
- 随机预处理
- JBOD、8DR10、8DR5(单和双 PERC)的随机优化测试
- 8DR10、8DR5(单和双 PERC)的随机重建测试
- 随机写入延迟可实现 8DR5 的优化和重建(单 PERC)
由于 PERC 12 H965i 具有 x16 PCIe Gen4 插槽,其峰值性能将在一个方向上约为 28GB/s,而这正是 Gen4 插槽的最高性能。 戴尔采用独特的方法来解决此带宽限制,在 PowerEdge R12 中提供双 PERC 760 配置。 负载被分散,每个 PERC 16 控制自己的一组 12 个 SSD,而不是将 8 个 SSD 托架全部连接到单个卡。 这种方法避开了带宽限制,同时显着提高了高要求工作负载下的峰值可用吞吐量。
首先看看顺序传输性能,我们可以看到 Direct Drives 配置的带宽优势,读取速度为 54.4GB/s,而单个 PERC 12 的读取速度为 28.1GB/s。 本机写入速度也具有优势,测量结果为 33.4GB/s,而后面有八个驱动器的单个 PERC 28.3 的写入速度为 12GB/s。 一般来说,写入速度不会有很大差异,因为一般来说,此类 SSD 的读取速度远远超过写入速度。
工作量 | JBOD 直接驱动器(MB/秒) | JBOD 1 x PERC 12(MB/秒) | JBOD 2 x PERC 12(MB/秒) | RAID 10 1 x PERC 12 - 最佳(MB/秒) | RAID 10 2 x PERC 12 - 最佳(MB/秒) | RAID 5 1 x PERC 12 – 最佳(MB/秒) | RAID 5 2 x PERC 12 – 最佳(MB/秒) |
---|---|---|---|---|---|---|---|
最大顺序读取 | 54,396 | 28,076 | 56,114 | 27,450 | 55,482 | 24,049 | 56,107 |
最大顺序写入 | 33,367 | 28,284 | 56,541 | 11,037 | 22,120 | 12,269 | 24,351 |
最大 50:50 Seq 读取:写入 | 33,569 | 28,286 | 56,541 | 11,011 | 21,875 | 12,269 | 24,360 |
将我们的注意力转向随机传输性能,我们开始看到 RAID 卡在 NUMA 平衡方面的优势发生了变化。 在读取性能方面,Solidigm 7.68TB P5520 SSD 在我们的 7.96K 读取测试中测得 4M IOPS,而 PERC 12 JBOD 配置测得 7M IOPS。 通过 Direct Drives 配置的写入速度下降至 3.4M IOPS,而 PERC 12 保持 5.97M IOPS。 对于 4K OLTP 工作负载,这种情况变得更加明显,Direct Drive 测量为 3.6 万 IOPS,而 PERC 10.2 测量为 12 万 IOPS。
虽然传统观点认为硬件 RAID 对于现代 SSD 没有价值,但我们发现情况已不再如此。 是的,Direct Drives NVMe 设置可以调整,但它是跨多个 SSD 的移动目标,平衡在两个 CPU 上。
这与 PERC 12 HWRAID 卡形成鲜明对比,后者管理所有复杂性并仅连接到一个 CPU。 为了进行扩展,Dell PowerEdge R2 中的第二个 PERC 卡连接到另一个 CPU,为跨这两个磁盘组分配的较大工作负载提供平衡。 应该注意的是,在 760M IOPS 左右,系统开始使 CPU 饱和,这就是为什么我们在使用附加 PERC 10 卡时在某些区域没有看到线性扩展的原因。
工作量 | JBOD 直接驱动器(MB/秒) | JBOD 1 x PERC 12(MB/秒) | JBOD 2 x PERC 12(MB/秒) | RAID 10 1 x PERC 12 – 最佳(MB/秒) | RAID 10 2 x PERC 12 – 最佳(MB/秒) | RAID 5 1 x PERC 12 – 最佳(MB/秒) | RAID 5 2 x PERC 12 – 最佳(MB/秒) |
---|---|---|---|---|---|---|---|
4KB 随机读取 (IOP) | 7,958,204 | 7,003,556 | 12,447,020 | 6,757,498 | 13,067,852 | 6,974,826 | 13,205,656 |
4KB 随机写入 (IOP) | 3,473,446 | 5,974,265 | 11,323,633 | 2,204,738 | 4,684,333 | 862,769 | 1,725,198 |
4KB OLTP (IOP) | 3,553,974 | 10,195,618 | 11,967,984 | 6,441,868 | 12,288,219 | 2,635,711 | 5,279,999 |
虽然我们没有研究 Direct Drives PowerEdge R760 配置的软件 RAID 选项,但我们确实有机会了解 RAID 配置在降级状态下的 PERC 12 上的性能如何。 虽然与最佳性能相比性能显着下降,但 RAID10 和 RAID5 在重建 RAID 组时都提供了强大的性能。
工作量 | RAID 10 1 x PERC 12 – 重建(MB/秒) | RAID 10 2 x PERC 12 – 重建(MB/秒) | RAID 5 1 x PERC 12 – 重建(MB/秒) | RAID 5 2 x PERC 12 – 重建(MB/秒) |
---|---|---|---|---|
4KB 随机读取 (IOP) | 1,345,175 | 2,692,738 | 2,350,889 | 4,676,748 |
4KB 随机写入 (IOP) | 1,666,967 | 3,174,430 | 242,802 | 479,144 |
4KB OLTP (IOP) | 1,618,209 | 3,253,603 | 243,349 | 486,251 |
虽然最佳 RAID 性能是选择存储解决方案的一个重要方面,但了解其在次优条件下的性能也同样重要。 为此,我们在最佳条件下测量了 RAID4 中的 5K 写入延迟,并在驱动器发生故障时重建性能。 如果性能或延迟受到严重影响,应用程序响应能力可能会成为问题。 虽然重建性能与最佳性能相比有所下降,但性能延迟不会增加到超过基线。
总结
戴尔的新款 PERC12 NVMe RAID 卡改变了 PowerEdge 服务器中 NVMe 存储选项的游戏规则。 过去,一些客户犹豫是否要放弃 SAS SSD,或者选择连接到各种 SDS 或虚拟机管理程序的 NVMe 驱动器。 然而,PERC 12 卡的推出改变了 PowerEdge 的方程式,使其成为更可行的选择。
PERC 12 表现如此出色的原因还归功于 PowerEdge 服务器的布局。 我们的 R760 有两个 PERC 12(H965i 前置)卡,每个卡都有 x16 通道。 这使我们能够在每张卡上使用 8 个 Solidigm SSD,提供每张卡高达 28GB/s 的最大带宽。 将所有 16 个 SSD 连接到单个 RAID 卡将导致潜在性能损失一半。
您可能会问,“为什么不使用带有 HWRAID 的 24 个 SSD?” 请记住,每个系统都有某个地方的瓶颈。 在这种情况下,我们可以很容易地使 CPU 饱和,因此服务器内的 x86 就成为门控因素。 如果我们谈论的是集群解决方案,那么我们还将固定网络。 少数 SSD 可以轻松填充 200GbE 甚至 400GbE。 随着 SSD 容量现已突破 30.72TB,服务器也不再需要装满驱动器来解决系统容量问题。
如果您阅读我们的 Broadcom 9600 系列 RAID 卡评测, 我们一开始非常怀疑新芯片能否真正提供 HWRAID 的所有数据弹性和重建优势,而不会削弱 NVMe SSD 的性能配置。 我们对该评测的结果感到惊喜,在这里更是如此,PERC 12 能够在 R760 中加倍,获得两倍的顶级性能。 虽然戴尔直接驱动器在许多使用案例(例如软件定义存储)中可能仍然是首选,但 PERC 12 选项对于大多数企业使用案例来说应该非常受欢迎。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅