大约两年前,我们进行了一次正面交锋 摊牌 在两种流行的企业级 SSD 之间:Intel P5510 与 Samsung PM9A3——两者在数据中心都有坚实的追随者。 从那以后,英特尔将其 SSD 业务剥离给了一家名为 Solidigm 的新公司,这家公司得到了 SK 海力士的支持。 现在,我们正在重新审视 Solidigm P5520,以更新我们面对面的主流企业 SSD 摊牌。
大约两年前,我们进行了一次正面交锋 摊牌 在两种流行的企业级 SSD 之间:Intel P5510 与 Samsung PM9A3——两者在数据中心都有坚实的追随者。 从那以后,英特尔将其 SSD 业务剥离给了一家名为 Solidigm 的新公司,这家公司得到了 SK 海力士的支持。 现在,我们正在重新审视 Solidigm P5520,以更新我们面对面的主流企业 SSD 摊牌。
从历史上看,我们发现单个企业 SSD 的规格表并不是很有帮助,因为它们侧重于针对非常小且特定的工作负载的单驱动器性能。 正因为如此,我们决定集中精力对决 表演 具有多个驱动器的系统而不是单个驱动器的带宽。
最终,P5510 在我们的真实测试场景中击败了三星 PM9A3。 考虑到这一点,我们想为这两个驱动器提供重新匹配测试,但这次使用的是 P5510 的后继产品:Solidigm P5520。 这一次,我们还包括了 Micron 7400 Pro 和 Kioxia CD6,以获得更全面的数据集。
我们已经单独审查了所有这些驱动器,因此在本报告中,我们不会深入探讨单个驱动器的性能。 相反,我们将专注于此设备的企业部署,其中多个驱动器相互结合使用。 我们的测试包括混合工作负载、嘈杂的邻居情况和高写入工作负载。
如上文所述,2020 年,备受尊敬的韩国半导体存储器和设备制造商 SK 海力士宣布,他们将以 9 亿美元的价格收购英特尔的 NAND 业务。 通过此次收购,SK 海力士创建了 Solidigm,这是一家由 SK 海力士全资拥有的美国新公司。 我们认为这对两家公司来说都是一场胜利,因为它让每家公司都能专注于自己的核心业务,而 SK 海力士的额外好处是增加了备受推崇的现有产品线,并为其产品组合增加了忠实的追随者。
Solidigm P5520 与 P5510
当 P5520 与 P5510 进行比较时, 规格表 仅显示 P5520 的连续性能略有提高。 但是,我们发现规格表只显示了部分情况,这就是我们进行这些测试的原因。
然而,性能数据只是故事的一部分; 今天的超大规模和数据中心要求密度和功率效率。 与上一代 P44 设备相比,Solidigm 的总功耗降低了 5510%,这两种性能均得到肯定。 这要归功于最大容量从 P7.68 的 5510TB 增加到相同 15.36 英寸 5520mm 驱动器尺寸的 P2.5 的 15TB。 在一个完全填充的服务器中,这些收益加起来非常快。
P5520 实现了客户要求的许多功能,包括多扇区大小、OPAL 2.0、可配置命名空间锁定、安全擦除、改进的遥测日志、动态多命名空间和设备自测试。
在我们的测试中,我们使用了 U.2 外形尺寸的 7.68TB 驱动器,这是企业使用的流行容量点。 P5520 的可用容量从 1.92TB 到 15.36TB 不等。 有趣的是,P5520 可用于 统治者 (E1.S 和 E1.L)格式,在超大规模应用程序和一些服务器中很流行。 我们有点惊讶它没有出现在 E3.S 中,这是一种我们期望服务器 OEM 在其下一代更新中利用的新格式。 也就是说,P5520 已经开发了很长时间,而且 Solidigm 很可能会在 P3 或此类 SSD 的下一步中包含 E5540.S 变体。
Solidigm P5520 性能
为了进行比较,我们选择了一台英特尔 OEM 服务器,该服务器在此配置中支持八个 NVMe SSD。 所有批次的 SSD 在同一台服务器上进行了相同的测试。
被测硬盘,容量均为 7.68TB:
高级规范包括:
- 2 个英特尔可扩展 Gen3 8380
- 32 个 32GB DDR4 3200MHz
- Ubuntu 20.04.2 实时服务器(合成工作负载)
- VMware ESXi 7.0u2(应用程序工作负载)
- 8 个 PCI Gen4 U.2 NVMe 托架
基准测试使用 VDbench 和 FIO 进行综合基准测试,Percona Sysbench 和 Benchmark Factory 用于 SQL Server。
VD基准:每组 8 个 NVMe SSD 都经过安全擦除,然后使用 64K 写入操作写入整个磁盘表面,然后进行一小时的 64K 顺序预处理工作负载。 完成后,每个驱动器都会分配一个占磁盘表面 25% 的分区(2TB SSD 的分区为 8TB)。
然后,我们专注于一组由常见混合工作负载组成的常见工作负载配置文件。 我们还使用我们的 I/O 模式来复制 SQL、Oracle 和 VDI 工作负载。 在随机 I/O 模式开始之前,我们执行了额外一小时的 4K 随机写入活动。
工作负载配置文件
- 综合数据库:SQL 和 Oracle
- VDI 完整克隆和链接克隆跟踪
在我们的 SQL 工作负载中,Solidigm P5520 在最低延迟方面遥遥领先,并以最高性能和最低延迟结束。 我们测得 P2.36 在 105 微秒时达到 5520M IOPS 的峰值,紧随其后的竞争对手 (PM9A3) 在 1.95 微秒时测得 127M IOPS。
随着我们 SQL 90-10 工作负载中写入百分比的增加,P5520 再次在竞争性 SSD 面前提供了强大的领先优势。 在这里,我们在 2.23 微秒时测得 111 万 IOPS 的峰值,PM9A3 紧随其后,在 1.89 微秒时达到 129 万 IOPS。
在我们的 SQL 10-20 工作负载中将写入百分比从 80% 增加到 20% 之后,我们看到 SSD 的分组稍微接近一些。 在这里,P5520 在 1.99 微秒时达到 122M IOPS 的最高值,而 PM9A3 在 1.79 微秒时以 135M IOPS 落后。
切换到我们的 Oracle 工作负载后,Solidigm P5520 保持领先优势,在 1.9 微秒时达到 127 万 IOPS。 总体而言,这与 PM1.68A143 在 9 微秒时的 3M IOPS、1.66 Pro 在 147 微秒时的 7400M IOPS 或 CD1.59 在 6 微秒时的 157M IOPS 相比。
在我们的 Oracle 90-10 工作负载中,P5520 在 1.7 微秒时达到 99 万 IOPS,PM9A3 紧随其后,在 1.54 微秒时测得 110 万 IOPS。
在我们具有 80-20 R/W 混合的最终 Oracle 工作负载中,Solidigm P5520 仍然以 1.63 微秒的 103M IOPS 保持领先。 三星 PM9A3 仍然以 2 微秒的 1.5M IOPS 速度排名第二。
从合成数据库转向 VDI,我们从完整克隆启动工作负载开始。 在这里,Solidigm P5520 开始时略有优势,随着工作负载达到顶峰,它变成了显着的领先优势。 P5520 在其峰值 1.79 微秒时测得 137M IOPS,其后的 PM9A3 在 1.51 微秒时测得 160M IOPS。
在我们的 VDI 完整克隆初始登录工作负载中,P5520 提供了延迟优势,尽管峰值吞吐量来自 Micron 7400 Pro。 在这里,P5520 在 909 微秒时以 201k IOPS 最高,而 7400 Pro 在 959 微秒时以 213k IOPS 领先。
在 VDI Full Clone Monday Login 中,Solidigm P5520 开始时的响应时间略有延长。 然而,随着工作量的增加,它提供了比组中其他人更高的性能配置文件。 在这里,P5520 在 634 微秒时测得 156k IOPS,其次是 7400 Pro,在 606 微秒时测得 166k IOPS。
我们最后一组综合工作负载配置文件侧重于 VDI 链接克隆性能,从 Boot 开始。 在此测试中,我们看到三星 PM9A3 位居榜首,在 696 微秒时测得 149k IOPS,而 P5520 在 534 微秒时测得 196k IOPS。
在 VDI 链接克隆初始登录配置文件中,Solidigm P5520 排在 PM9A3 之后。 P5520 在 312 微秒时测得 148k IOPS,而 PM9A3 在 325 微秒时测得 140k IOPS。
最后,在我们的 VDI 链接克隆星期一登录工作负载中,我们看到 Solidigm P5520 与 Micron 7400 Pro 相比在延迟方面略有领先。 在这里,P5520 在 485 微秒时测得 198k IOP,而 487 Pro 在 205 微秒时测得 7400k IOPS。
FIO 写入压力测试
存储工作负载变得越来越复杂,因为 SSD 在峰值使用水平上跟上并发读/写请求。 在并发写入压力下为 IO 提供服务的能力变得比在不存在写入的情况下进行读取更有趣。 供应商可以将背景活动保持在足够低的水平,以显示“基准”,例如在卸载条件下的读取响应。 但这不是现实世界中 IO 的工作方式。
此工作负载演示了 SSD 如何在其核心固件和 NAND 组件级别暂停或暂存写入并优先读取。 读取优先级可以推动特定应用产品的 SLA 要求。 因此,写入压力测试的动机是由测试并发 IO 以及 SSD 产品的弹性和 QoS 的需要驱动的。
在我们的写入压力测试中,我们在 Solidigm P5520、三星 PM9A3、Kioxia CD6 和 Micron 7400 Pro 测试组中的八个驱动器上运行了工作负载。 在测试闪存设备时,我们看到许多情况下,单独的驱动器测试并不总是反映该驱动器在更活跃的系统中的响应方式。 为了显示性能是如何反映的,我们从每个组中的单个驱动器中提取结果,在这种情况下对应于每个组中的一个驱动器。 测试分为 8K 块大小和 16K 块大小工作负载。 在每个测试中,我们都关注 clat(完成延迟)、第 99 个百分点延迟和第 99.99 个百分点延迟。
从 8K 块大小开始,我们查看了四个 SSD 组中每个组的完成延迟,我们发现开始时形成了巨大差异。 看看 100MB/s 到 700MB/s 的范围,Kioxia CD6 脱颖而出,一条线在 350MB/s 时下降。 这是因为在那之后,由于测试需要更高的带宽,它的上限为 350MB/s,而其他驱动器则不断攀升。 如果我们看一下 350MB/s 的速率,5520 测量为 122 微秒,PM9A3 测量为 135,CD6 为 157,而 7400 Pro 测量为 192。
在第 99 个百分位数组中,Solidigm P5520 继续遥遥领先。 在 350MB/s 标记处,我们测得 P424 为 5520 微秒,CD627 为 6 微秒,PM668A9 为 3 微秒,742 Pro 为 7400 微秒。
在第 99.9 个百分位,我们看到该组中企业级 SSD 之间的分离更为明显。 P5520 的起步明显低于组中的其他产品,并在整个测试环节保持领先。 如果我们查看 350MB/s 点,我们测得 P578 为 5520 微秒,CD922 为 6 微秒,PM1,074A9 为 3 微秒,1,254 Pro 为 7400 微秒。
移动到第 99.99 个百分点的延迟,保持 350MB/s 标记作为比较每个驱动器的标记,Solidigm P5520 继续领先。 它提供了 717 微秒的低延迟,而 PM9A3 为 1,336 微秒,CD6 为 1,369 微秒。 7400 Pro 以 2,311 显着落后。
在我们的写入压力测试中将块大小增加到 16K,我们再次看到该类别中的四个 SSD 在响应时间方面存在显着差异。 测试开始时,从完成延迟来看,Solidigm P5520 和三星 PM9A3 非常接近,但随着写入工作负载的增加,路径有所不同。 我们再次看到 Kioxia CD6 达到了 350MB/s 的最高速度,我们将把它用作整个驱动器组的比较点。 此处 P5520 测得 139.7 微秒,而 PM141A9 为 3 微秒。 CD6 在这一阶段测得 174,其上方的 7400 Pro 测得 216.5。
在第 99 个百分位测量中,随着带宽的增加,每个 SSD 之间的差异变得更加明显。 在 350MB/s 标记处,P5520 测量为 445 微秒,PM9A3 测量为 668,CD6 为 685,而 7400 Pro 为 824。
移动到 99.9 个百分点的延迟时,P5520 保持领先,同时我们从 CD6 看到了一些有趣的行为。 CD9 最初以 3MB/s 的速度低于 PM300A6,但在达到饱和之前延迟出现峰值。 按照相同的 350MB/s 采样点,我们测得 P5520 为 603 微秒,CD6 为 1,037,PM9A3 为 1,074,而 7400 Pro 为 1,418。
最后,当我们进入 99.99K 块大小写入压力测试的 16 个百分点部分时,我们看到 Solidigm P5520 的延迟最低,而 Micron 7400 Pro 的响应时间几乎是其三倍。 关注350MB/s指标点,P5520测得734微秒,PM9A3为1,319,紧随其后的CD6为1,565,7400 Pro最高为2,606。
FIO 嘈杂邻居测试
传统上,要了解 SSD 如何在不同的并发工作负载下运行,您需要同时向设备应用读取和写入工作负载。 这些工作负载还可以包括不同的块大小和其他元素。 NVMe SSD 带来了一个新概念,它们可以提供多租户命名空间配置而不是通用分区。
当多个租户都将其预配的命名空间用于不同的工作负载时,延迟不得增加到存储不再响应每个租户的程度。 在嘈杂的邻居测试中,我们将混合写入工作负载应用于六个已配置命名空间中的三个,并跟踪其余三个命名空间的读取延迟,以查看每个驱动器如何处理并发写入和读取活动。
随着现场设备的增多,Solidigm P5520 在完成延迟以及 99.99 个百分点和 99.9999 个百分点的延迟方面处于领先地位。 从完成延迟 (clat) 开始,命名空间 5520-4 的 P6 平均时间为 141 微秒,紧随其后的是三星 PM9A3,为 157 微秒,其次是美光 7400 Pro,为 166 微秒,最后是铠侠 CD6,为177.
不过,这一差距有所扩大,达到 99.99 个百分点,我们开始看到竞争驱动器的响应时间急剧增加。 在这里,Solidigm P5520 测量为 769 微秒,三星 PM9A3 测量为 1,049,Kioxia CD6 为 1,576,Micron 7400 Pro 为 2,281。
转向六个 9 或 99.9999 延迟测量,P5520 继续领先于该组,测量为 1,123 微秒。 三星 PM9A3 仍然位居第二,得分为 1,494,Kioxia CD6 跃升至 2,748,美光 7400 Pro 得分达到惊人的 3,796。
Sysbench MySQL 性能
我们的 Sysbench 测试利用 Percona 将 I/O 驱动到 MySQL OLTP 数据库。 此测试还测量平均 TPS(每秒事务数)、平均延迟和平均 99% 延迟。 每个 Sysbench VM 配置了三个虚拟磁盘:一个用于启动 (~92GB),一个用于预构建数据库 (~447GB),第三个用于测试中的数据库 (270GB)。 从系统资源的角度来看,我们为每个虚拟机配置了 16 个 vCPU 和 60GB 的 DRAM,并利用了 LSI Logic SAS SCSI 控制器。
Sysbench 测试配置(每个虚拟机)
- CentOS 6.3 64 位
- Percona XtraDB 5.5.30-rel30.1
- 数据库表:100
- 数据库大小:10,000,000
- 数据库线程:32
- 内存缓冲区:24GB
- 测试时长:3 小时
- 2 小时预处理 32 个线程
- 1 小时 32 个线程
对于 16VM 负载(每个 SSD 8 个 VM),我们将存储作为 MySQL 性能的主要约束,留有一些 CPU 空间。 在性能方面,Solidigm P5520 名列前茅,测得 28,455 TPS,其次是 7400 Pro 26,397 TPS,PM9A3 26,312,CD6 25,628。
从平均延迟来看,P5520 以 18.02ms 领先,其次是 7400 Pro 19.46ms,PM9A3 19.59ms,CD6 19.98ms。 重要的是要注意这是数据库响应时间,而不是存储延迟,因此数字高于 NVMe I/O 层。
在最后一部分,我们测量了 Sysbench 工作负载期间的第 99 个百分位延迟,P5520 测量为 31.84 毫秒,PM9A3 为 34.37 毫秒,7400 Pro 为 35.44 毫秒,CD6 为 36.56 毫秒。
结论
在我们之前深入研究 P5510 时,我们将其与 PM93A 进行了正面比较。 在那轮测试中,P5510 表现非常出色,优于三星驱动器。 这一次,Solidigm 带着更新的企业级 SSD 回来了,所以我们再次运行测试,将 Solidigm P5520 与 PM9A3 进行对比。 此外,我们还扩大了范围,将来自美光和铠侠的备受推崇的企业级 SSD 纳入了对决。
查看驱动器的规格表,很难破译这些批次的 SSD 在我们的测试中表现如此不同,但它们确实如此,而且以最引人注目的方式。 这方面的一个例子是我们的 FIO 嘈杂邻居测试,在 99.99 百分位数测试中,P5520 比最接近的竞争对手高出 36%!
在广泛的测试中很容易看出的主要趋势是 Solidigm P5520 全面提供卓越的性能和极低的延迟。 与铠侠 CD6、美光 7400 Pro 和三星 PM9A3 相比,它在许多方面都处于领先地位。 这在写入压力测试中最为明显,其中 CD6 等 SSD 完全饱和,远低于同类产品。
完成此练习后,我们剩下的 P5520 与 P5510 的情况差不多——这是一件非常好的事情。 P5520 在我们投入的工作负载中表现出色,在极端写入压力和嘈杂的邻居场景等最密集的工作负载中表现出色。 Solidigm 工程再次证明,在这个主流的企业级 SSD 类别中,存在相当大的鸿沟,对闪存进行正确的投资对于应用程序性能极为重要。
Solidigm 赞助了这份报告。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS订阅