显然,最新的 Gen5 SSD(例如 Western Digital SN861)正在影响业务成果。如果您需要证据,只需看看它们对 AI 革命的影响即可。
由西部数据赞助
Western Digital Ultrastar® DC SN861 SSD 旨在满足超大规模数据中心和企业环境的高性能需求。SN861 支持 PCIe® Gen5 接口,具有多种外形尺寸,包括 U.2 和 E1.S,使其能够适应多种部署场景。不过,这并不像将 SN861 做成不同的外形尺寸那么简单;Western Digital 明智地设计了 SN861 的功能集,以适应其目标市场。
Gen5 接口使 SN861 的性能比上一代产品有了立竿见影的提升 SN655。新驱动器的优势更为深远,具有 E1.S 外形尺寸中的灵活数据放置 (FDP) 等功能。FDP 减少了写入放大并优化了数据放置。SN861 包括高级安全功能,例如端到端数据保护、AES-XTS 加密和 TCG OPAL 2.01。该控制器还有助于降低 SSD 功耗,平均空闲时功耗低于 5 瓦。此外,该驱动器支持 NVMe® 2.0 和 OCP Cloud Spec 2.0 等多种标准。
虽然安全性和效率功能至关重要,但每一代产品的更新都会带来显著的性能飞跃,SN861 也不例外。该驱动器的顺序读取速度高达 13,700 MB/s,随机读取 IOPS 高达 3.3 万,这对于 AI/ML 和大数据分析等应用至关重要。SN861 的两个版本在运行时平均消耗 20 瓦,空闲时消耗不到 5 瓦。功率可调,因此调整驱动器的功率分布以匹配预期的工作负载很容易。例如,超大规模用户通常会在低得多的功率状态下运行其 E1.S 驱动器。
有趣的是,虽然 SN861 的两种外形在设计上非常相似,但西部数据已针对特定工作负载对每款硬盘进行了调整。例如,在 E1.S 版本中,这意味着 FDP 等功能和针对云工作负载进行的性能调整。另一方面,U.2 硬盘将进入高性能企业工作负载,毫无疑问,人工智能等新兴工作负载可以从硬盘性能的大幅提升中受益。
EDSFF 和 FDP
FDP 通过在 CacheLib 等工作负载中优化 SSD 的性能和可靠性,为 Meta 等超大规模企业带来了显著优势。FDP 降低了写入放大系数 (WAF),从而提高了写入速度并延长了 SSD 的使用寿命,这对于处理海量数据处理任务至关重要。
该技术通过智能地对相似数据进行分组、最大限度地减少过度配置以及减少密集垃圾收集的需求来增强数据组织。FDP 还支持多个命名空间,确保不同工作负载之间的一致性能。这种优化提高了应用程序的性能和耐用性,并显著降低了大型存储基础设施的总拥有成本 (TCO)。
Ultrastar SN1 的 E861.S 版本支持 FDP,这证明该驱动器已准备好满足超大规模用户的需求,但 FDP 只是其中的一部分。E1.S 版本的驱动器需要满足超大规模性能要求,特别是读取性能方面的 QoS。
U.2 企业版
尽管 E1.S 硬盘在超大规模使用案例中令人兴奋,但 U.2 SN861 才是大多数企业会采用的硬盘。我们对硬盘进行了一系列测试,以衡量其在标准测试套件中的整体性能。
Western Digital Ultrastar DC SN861 SSD 数据表
1.60TB | 1.92TB | 3.20TB | 3.84TB | 6.40TB | 7.68TB | |
---|---|---|---|---|---|---|
耐力 | 3 DWPD | 1 DWPD | 3 DWPD | 1 DWPD | 3 DWPD | 1 DWPD |
安全性 | ||||||
外形 | ||||||
接口 | ||||||
NVMe 规范 | ||||||
业绩(预计) | 1.60TB | 1.92TB | 3.20TB | 3.84TB | 6.40TB | 7.68TB |
读取吞吐量(最大 MB/s,序列 128KiB) | 13,700 | 13,700 | 13,700 | 13,700 | 13,700 | 13,700 |
写入吞吐量(最大 GB/s,序列 256KiB) | 3,600 | 3,600 | 7,200 | 7,200 | 7,500 | 7,500 |
读取 IOPS(最大,Rnd 4KiB) | 2,100 | 2,100 | 3,300 | 3,300 | 3,300 | 3,300 |
写入 IOPS(最大,Rnd 4KiB) | 350 | 165 | 665 | 330 | 800 | 430 |
读取延迟 (µS) | 65 | 65 | 65 | 65 | 65 | 65 |
写入延迟 (µS) | 8 | 8 | 8 | 8 | 8 | 8 |
可靠性 | ||||||
MTTF(预计小时数) | ||||||
不可纠正的误码率 (UBER) | ||||||
年故障率(AFR,预计) | ||||||
有限保修(年) | ||||||
电源管理(预计) | ||||||
要求(DC,+/- 10%) | ||||||
操作模式(平均,最大) | ||||||
空闲(平均) | ||||||
物理尺寸 | ||||||
z-高度 (mm) | ||||||
尺寸(宽 x 长,mm) | ||||||
环境 | ||||||
工作温度(环境) | ||||||
非工作温度 |
为了测量本次比较中使用的企业级 NVMe® Gen5 SSD 的性能,我们利用 fio 测试套件来测试四角工作负载,并利用 Vdbench 来测试混合工作负载。我们使用的 fio 脚本包是一个自动化脚本,用于以一致的方式预先设定和轻度测试驱动器, 在 github 上找到我们用它进行了256K顺序读写测试,以获得峰值带宽,以及4K随机读写测试,以获得峰值吞吐量。
峰值吞吐量和带宽 |
西部数据 SN861 7.68TB | KIOXIA CM7-R 7.68TB | 三星 PM1743 7.68TB | 三星 PM9A3 7.68TB |
256K 顺序读取(1T/64Q) | 13,283MB /秒 | 12,092MB /秒 | 14,495MB /秒 | 6,751MB /秒 |
256K 顺序写入 (1T/64Q) | 7,696MB /秒 | 5,796MB /秒 | 6,052MB /秒 | 4,055MB /秒 |
4K随机读取(8T/32Q) | 2,108,065 IOPS | 1,963,066 IOPS | 1,900,838 IOPS | 1,068,508 IOPS |
4K随机写入(8T/32Q) | 473,658 IOPS | 301,061 IOPS | 319,758 IOPS | 206,660 IOPS |
当我们查看西部数据 SN861 的顶级性能数据时,它充分利用了 Gen5 接口。在连续读取方面,它测得 13.3GB/s,与测得 1743GB/s 的三星 PM14.5 相比,它排名第二。在连续写入方面,SN861 以 5GB/s 的速度横扫了其他两款可比的 Gen7.7 型号,位居第一,三星 PM6.1 的 1743GB/s 速度紧随其后。
随机 4K 读取性能尤其强劲,达到 2.11M IOPS,KIOXIA CM1.96-R 的 7M IOPS 紧随其后。当我们查看随机 4K 写入性能时,西部数据 SN861 也名列第一,速度为 474K IOPS,三星 PM1743 的速度为 320K IOPS,紧随其后。在我们的四角工作负载中,西部数据 SN861 在四项测试中的三项中都名列前茅。
为了测试 SN861 Gen5 SSD,我们利用了 戴尔® PowerEdge® R760 在我们的测试实验室中。这是一款高度通用的 2U 机架式服务器,支持两个第四代 Intel Xeon 处理器,配置支持多达 4 个 NVMe 驱动器。此服务器适用于混合工作负载、数据库和 VDI。需要注意的是,我们在本次评测中测试的 CM24-R 版本来自带有戴尔固件版本的戴尔服务器。此驱动器在 KIOXIA 的库存固件下的性能可能会有所不同。
Dell PowerEdge R760 配置:
- 双 Intel® Xeon® Gold 6430(32 核/64 线程,1.9GHz 基本频率)
- 1TB DDR5 内存
- Ubuntu的22.04
为了实现最大的灵活性,我们还与 Serial Cables 合作,他们为我们提供了 8 托架 PCIe Gen5 JBOF,用于 U.2/U.3、M.2 和 EDSFF SSD 测试。这样,我们就可以在同一测试硬件上测试所有当前和新兴的驱动器类型。我们还利用 VDbench 比较了不同工作负载类型中我们选择的 SSD 的扩展性能。我们针对这些基准的测试过程会用数据填充整个驱动器表面,然后划分一个相当于驱动器容量 25% 的驱动器部分,以模拟驱动器如何响应应用程序工作负载。这与全熵测试不同,后者使用 100% 的驱动器并使其进入稳定状态。因此,这些数字将反映更高的持续写入速度。
简介:
- 16K 顺序读取:100% 读取,32 线程,0-120% 迭代
- 16K 顺序写入:100% 写入,16 个线程,0-120% 迭代
- 4K、8K 和 16K 70R/30W 随机混合,64 线程,0-120% 迭代
- 综合数据库:SQL 和 Oracle
- VDI 完整克隆和链接克隆跟踪
我们的第一个 Vdbench 测试测量了 16 线程负载下的连续 32K 读取性能。在这里,我们从 Western Digital SN325 测得了 5.1K IOPS 和 98GB/s 的峰值吞吐量,速度为 861 μs,与 KIOXIA CM7-R 不相上下,测得 329K IOPS。PCIe Gen5 Samsung PM1743 测得 289K IOPS,我们作为参考 Gen9 SSD 的 Samsung PM3A4 测得 227K IOPS。将我们的重点转移到使用相同 16K 顺序工作负载的写入性能上,西部数据 SN861 在我们与之比较的其他 U.2 PCIe Gen5 SSD 中表现出色。SN861 在 200 μs 下测得峰值为 3.1K IOPS 和 78GB/s,远远领先于 KIOXIA CM7-R 和三星 PM1743。与 Gen4 相比,所有产品都远远领先于三星 PM9A3,后者测得 131K IOPS。接下来的三项测试在随机传输测试中以 70/30 R/W 混合方式扩展块大小。第一项测试测量了 4K 块大小。在这里,我们发现 Western Digital SN861 和 KIOXIA CM7-R 的性能非常相似,SN861 在 903 μs 时测量 70K IOPS,而 CM881-R 为 7K IOPS。三星 PM1743 以 521K IOPS 的峰值速度落后,Gen4 PM9A3 测量 396K IOPS。在我们的 8/70 R/W 随机测试中,将块大小提升至 30K,西部数据 SN861 领先于 KIOXA CM7-R,在 682 μs 时测量到 93K IOPS 的峰值,而 CM7-R 的峰值为 599K IOPS。三星 PM1743 落后,为 414K IOPS,而 Gen4 PM9A3 的测量值为 301K IOPS。我们最后的随机 70/30 R/W 测试针对的是 16K 块大小。西部数据 SN861 继续保持强劲领先,在 434 μs 时测得峰值为 143K IOPS,而 CM7-R 测得峰值为 337K IOPS。三星 PM1743 继续落后,测得峰值为 231K IOPS,而 Gen4 PM9A3 测得峰值为 183K IOPS。我们的下一组测试侧重于合成 SQL 工作负载。在第一次测试中,我们发现西部数据 SN861 略胜 KIOXIA CM7-R,峰值速度为 407K IOPS(78 μs),而 CM396-R 为 7K IOPS。三星 PM1743 落后,峰值为 340K IOPS,而 Gen4 PM9A3 测得 310K IOPS。在 SQL 工作负载为 80/20 R/W 组合的情况下,西部数据 SN861 继续领先于 KIOXIA CM7-R,在 424 μs 时测量峰值为 75K IOPS,而 CM407-R 为 7K。三星 PM1743 落后于这两款产品,峰值速度为 322K IOPS,而 Gen4 PM9A3 的测量值为 281K IOPS。在我们的 SQL 工作负载中,将读取比例增加到 90/10 R/W 分割,西部数据 SN861 继续领先于 KIOXIA CM7-R,在 411 μs 下测得 77K IOPS,而 CM398-R 测得 7K IOPS。三星仍然落后于这两款产品,峰值速度为 328K IOPS,而 Gen4 PM9A3 测得 297K IOPS。在我们的 SQL 测试之后,我们将焦点转移到合成 Oracle 工作负载。在这里,我们的三款 Gen5 SSD 显示出比 Gen4 Samsung PM9A3 更强的改进。Western Digital SN861 保持领先,峰值速度为 445K IOPS(80 μs),领先于 KIOXIA CM7-R(417K IOPS)。三星 PM1743 紧随其后,测量值为 317K IOPS,PM9A3 为 267K IOPS。将我们合成的 Oracle 工作负载的读写比调整为 80/20,西部数据 SN861 和 KIOXIA CM7-R 之间的差距缩小了,SN861 在 309 μs 时测得峰值为 71K IOPS,而 CM7-R 测得峰值为 304K IOPS。三星 PM1743 测得峰值为 252K IOPS,而 Gen4 PM9A3 测得峰值为 228K IOPS。我们最终合成的 Oracle 工作负载采用 90/10 R/W 组合,结果显示西部数据 SN861 和 KIOXIA CM7-R 之间的差距非常小。SN861 的峰值速度为 296K IOPS,速度为 74 μs,而 CM7-R 的测量值为 292K IOPS。三星 PM1743 的峰值速度为 250K IOPS,落后更多,而 Gen4 PM9A3 的测量值为 231K IOPS。我们最后六个工作负载专注于完整克隆和链接克隆虚拟机的 VDI 跟踪。它们分别涵盖三种场景:启动、初始登录和周一登录。我们的测试涵盖完整克隆启动场景,其中 Western Digital SN861 测得 370K IOPS,速度为 94 μs,而 KIOXIA CM7-R 测得 348K IOPS。三星 PM1743 测得 263K IOPS,Gen4 PM9A3 测得 227K IOPS。在我们的初始登录场景中,KIOXIA CM7-R 领先于西部数据 SN861,测得 196K IOPS(163 μs),而 SN861 测得 181K IOPS。三星 PM1743 测得峰值为 157K IOPS,而 Gen4 PM9A3 测得峰值为 117K IOPS。在 Monday Login 配置文件中,西部数据 SN861 和 KIOXIA CM7-R 不相上下。SN861 在 158 μs 时测得峰值为 99K IOPS,而 CM7-R 测得峰值为 160K IOPS。三星 PM1743 测得峰值为 126K IOPS,Gen4 PM9A3 测得峰值为 83K IOPS。在我们最后三次测试中,我们在 VDI 链接克隆设置中查看了相同的配置文件,从启动开始。KIOXIA CM7-R 排名第一,测量值为 161K IOPS,Western Digital SN861 为 156K IOPS,速度为 102 μs。三星 PM1743 随后测量值为 138K IOPS,Gen4 PM9A3 紧随其后,测量值为 110K IOPS。在我们测量初始登录配置文件的测试中,KIOXIA CM7-R 的速度最高,为 89K IOPS,西部数据 SN861 紧随其后,速度为 85K IOPS,速度为 102 μs。三星 PM1743 的速度为 70K IOPS,其 Gen4 兄弟产品的速度为 53K IOPS,紧随其后。在我们上一次涵盖 Monday Login 配置文件的 VDI 工作负载中,西部数据 SN861 以 122 μs 的峰值速度 129K IOPS 领先,KIOXIA CM7-R 紧随其后,测得 115K IOPS。三星 PM1743 测得 95K IOPS,Gen4 PM9A3 紧随其后,峰值速度为 64K IOPS。
Western Digital SN861 和 AI
与本报告中对 SN861 的研究有些相关的是,我们也一直在研究上一代 西部数据 Ultrastar DC SN655 在西部数据系统集团提供的 OpenFlex™ Data24 平台中。在 FMS '24 的演示中,我们展示了一个包含 GPU 服务器、Data24 NVMe-oF™ 平台和 Gen4 SN655 SSD 的 AI 演示。
我们对 NVIDIA® IndeX® 的测试重点在于利用其先进的体积可视化功能来高保真地处理大量数据集。IndeX 利用 GPU 加速提供 3D 体积数据的实时交互式可视化,这对于石油和天然气勘探、医学成像和科学研究等行业至关重要。
为了实现最佳性能,尤其是在 GPU 密集型环境中,必须确保 GPU 和存储之间的高速数据交换。例如,为了充分发挥 NVIDIA H100 GPU 的带宽,我们需要实现大约 64GB/s 的吞吐量,这需要使用高性能 NVMe 存储解决方案和 NVIDIA GPUDirect™ 等技术。这种集成可减少延迟并最大限度地提高数据吞吐量,确保高效利用 GPU,从而更快、更有效地处理大规模数据集。
当我们查看 Gen4 SN655 的峰值带宽差异(6.8GB/s)与 SN13.7 的峰值带宽差异(861GB/s)时,很明显可以看出转向 Gen5 SSD 的优势。要使用上一代型号达到 64GB/s,您需要十个 SSD,而 SN861 只需五个即可达到该目标。这种差异可以让您增加驱动器数量以获得额外的带宽或容量。
性能和容量对于存储随着 AI 和其他高级应用的需求而扩展至关重要。在这方面,SN5 提供的 Gen861 接口和整体性能提升比 Gen4 驱动器非常引人注目,这意味着这些驱动器可以在单个存储系统中支持更多 GPU,并确保以足够快的速度为这些 GPU 供电以确保充分利用。
结论
SN861 标志着西部数据向前迈出了一大步。这款硬盘的外形尺寸可同时支持超大规模和企业客户,E1.S 硬盘中的 FDP 等硬盘功能已针对其未来用例进行了调整。不过,Gen5 接口是这款硬盘最明显的优势,可提供令人印象深刻的全方位性能。
Western Digital SN861 一开始就表现出色,在我们最初的四角工作负载测试中,连续带宽峰值和随机吞吐量测试中,西部数据 SN4 占据了前三名。亮点包括 2.11M IOPS 的随机 4K 读取性能和 474K IOPS 的随机 1743K 写入性能。连续读取性能强劲,与三星 PM13.3 相比排名第二,为 7.7GB/s,尽管它在连续写入带宽方面能够以 XNUMXGB/s 的成绩领先。
在我们的 VDbench 工作负载中,主要侧重于混合工作负载或较小的块大小传输,SN861 继续表现出色。我们测量了 16K IOPS 的 200K 顺序写入速度,并在 70K、30K 和 4K 传输大小的 8/16 R/W 混合测试中保持领先。在我们的 VDI 工作负载中,SN861 与 KIOXIA CM7-R 争夺榜首,两者在某些领域不相上下。总体而言,西部数据 SN861 在我们的测试阵容中表现强劲。
显然,最新的 Gen5 SSD(例如 Western Digital SN861)正在影响业务成果。如果您需要证据,只需看看它们对 AI 革命的影响即可。我们在测试中看到了这一点;AI 系统需要快速存储来保持 GPU 正常工作,无论是在缓存中(如上面的 NVIDIA IndeX 示例)还是在共享存储阵列或 GPU 服务器中。Western Digital 在将 SN861 定位为这些高级工作负载方面做得非常出色,同时还为超大规模企业提供支持 FDP 的 SKU。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅