大约两年前,我们完成了对 Viking Enterprise Solutions (VES) 存储服务器的审查,该服务器在 24U 机箱中具有 2 个 NVMe 托架和双计算节点。 VES 是一家主要的 OEM,创造了市场上一些最具创新性的存储服务器系统。 最近,我们有机会亲身体验了他们针对单端口 NVMe 驱动器优化的存储服务器版本。 自然地,我们拿了 24 个 Solidigm P5316 30.72TB QLC SSD,将它们放入服务器,然后退后一步看看近 750TB 的 RAW 闪存可以做什么。
大约两年前,我们完成了对 Viking Enterprise Solutions (VES) 存储服务器的审查,该服务器在 24U 机箱中具有 2 个 NVMe 托架和双计算节点。 VES 是一家主要的 OEM,创造了市场上一些最具创新性的存储服务器系统。 最近,我们有机会亲身体验了他们针对单端口 NVMe 驱动器优化的存储服务器版本。 自然地,我们拿了 24 个 Solidigm P5316 30.72TB QLC SSD,将它们放入服务器,然后退后一步看看近 750TB 的 RAW 闪存可以做什么。
除了 OEM 工作外,VES 还向各种 HPC 和超大规模客户销售产品。 这是一个重要的考虑因素,因为当我们考虑传统企业领域之外的存储服务器性能时,拥有海量数据足迹的组织配置存储的方式是不同的。
这些服务器针对的许多工作负载是我们认为的现代分析和 AI 应用程序,在这些应用程序中,性能至关重要,而数据可用性则不那么重要。 因此,这些配置看起来不像传统的 SAN,后者主要关注数据服务和弹性。 在此示例中,我们在 VES 存储服务器中配置以获得最佳性能,而不是添加 I/O 卡并将服务器用作共享存储。
这种配置的细微差别很重要。 我们正在为系统背面的每个 AMD EPYC 计算节点提供 12 个 P5316 SSD。 这些节点处理 JBOD 中的存储,假定数据可用性的应用程序级弹性。 虽然我们没有在本报告中使用 GPU,但为分析或推理工作负载配置 NVIDIA A2 之类的节点是非常合理的。
不过,在我们深入研究服务器和存储配置之前,让我们先了解一下作为这项工作一部分的关键硬件组件。
Viking Enterprise Solutions VSS2249P 存储服务器
对于这项工作,我们去 VES 寻找一台功能强大的服务器,它可以充分利用前面的 24 个 Solidigm P5316 30.72TB SSD。 这不是一个小问题; 单端口驱动器在可以从一个 AMD 服务器节点向每个驱动器提供四个 PCIe v4 通道的解决方案中表现最佳。 直接访问提供每个 SSD 的最高性能,而不是流经可能限制带宽的内部扩展器。 此外,与之前为双端口 SSD 设计的 Viking Enterprise Server 的评论相比,该系统专为单端口 SSD 设计,如 Solidigm P5316。
Viking 企业解决方案 VSS2249P 亮点
Viking Enterprise Solutions VSS2249P 是一款 2U 双节点存储服务器,具有 24 个用于单端口 U.2 PCIe v4 驱动器的托架。 更具体地说,每个服务器节点(或模块)通过 x12 PCIe Gen2.5 通道支持 2 个单端口、热插拔 NVMe 8639 英寸 U.4 (SFF-4) SSD,使其成为性能驱动的服务器。 这使其成为 I/O 瓶颈可能成为问题的用例的理想选择,例如边缘计算存储、分析、机器学习、AI、OLTP 数据库、高频交易以及建模、模拟、科学研究和其他高性能用例。
VES 是一家领先的存储和服务器开发公司,专门为高性能和云计算企业 OEM 客户开发大规模解决方案。 由于其广泛的客户组合,他们在开发解决方案时在利用新兴技术方面拥有丰富的经验,这有助于为客户提供竞争优势。 我们期望 VSS2249P 也有很多相同之处。
Solidigm D5-P5316
我们的实验室以前有过这台服务器,但这次我们用 30.72TB 填充了它们 Solidigm D5-P5316 PCIe Gen4 NVMe SSD,通过 U.2 15mm 外形规格存储近四分之三拍字节。 这将允许客户(特别是在超大规模空间中)进行大规模部署。 D5-P5316 驱动器还采用 144 层 QLC NAND,这将降低成本,同时保留高容量模型和稳定的性能。
据称 D5-P5316 可提供高达 7GB/s 的顺序读取速度,而 30.72TB 型号的写入速度更高一些,为 3.6GB/s。 在随机 4K 读取中,Solidigm 对所有型号的新驱动器的报价均为 800,000 IOPS。 该驱动器还具有 0.41 驱动器每天写入 (DWPD) 评级、5 年保修和一系列增强的安全性,包括 AES-256 硬件加密、NVMe 清理和固件测量。
这些驱动器非常适合需要优化和加速数据中心工作负载(例如内容交付网络 (CDN)、超融合基础设施 (HCI) 和大数据)中的存储的环境。
总的来说,我们发现 Solidigm 创造的驱动器在容量、性能和成本之间找到了出色的平衡——这非常适合 VSS2249P。
Viking Enterprise Solutions VSS2249P 组件和构建
VSS2249P 机箱内的两个服务器模块支持热插拔,配备 AMD EPYC Rome CPU、两个 x16 PCIe Gen4 插槽和一个支持 Gen 3.0 PCIe 附加卡的 OCPNIC v4,以及多达 8 个 DIMM。 VSS3.43P 的尺寸为 17.2 英寸(高)x 27.44 英寸(宽)x 2249 英寸(深),还符合行业标准的 19 英寸、1.0 米机架的规格,使其可以部署在各种应用。
我们配置中的每个节点都包含一个 AMD EPYC 7402P CPU,它具有 24 个内核、2.8GHz 的基本时钟(最大提升 3.35GHz)、48 个线程和 128MB 的三级缓存。 它还配备了 3GB DDR64 RAM(4 x 8GB)和 8GB M.250 启动 SSD。
VSS2249P 设计为无线系统。 例如,驱动平面为电源、数据和管理以及 PSU 提供连接。 系统风扇也是服务器底座组件的一部分(通过风扇板连接到驱动平面),并由驱动平面供电和控制。 为了便于访问,风扇通过顶盖被移除。 所有 SSD 都直接插入中间平面。 这使得对 VSS2249P 的服务变得无缝,同时由于没有电缆,气流更好,因此服务器节点温度更低。
维京 VSS2249P 规格
扩展模组 | 2 节点,单端口驱动器 |
第 4 代 PCIe 插槽 | 两个 x16 HH/HL,一个 x16 Gen OCP v3 |
NTB | 无 |
服务器容器 | 单 CPU,8 个 DDR4 DIMM 插槽 |
固件 |
|
中央处理器 | EPYC(罗马或米兰)CPU |
管理网络 | 1GbE – 管理端口 |
服务器 |
|
内存 |
|
外部介面 | 1 个 USB、1 个 Displayport、1Gb IPMI、1 个 MicroUSB 控制台端口 |
交流电源 |
|
热插拔组件 |
|
操作环境 |
|
非操作环境 |
|
2U 机箱尺寸和重量 |
|
24 x Solidigm D5-P5316 性能测试
虽然我们大多数人都将 QLC 闪存视为 TLC SSD 的低性能替代品,但这只是考虑了等式的一方面。 由于架构决策,如粗略间接,较小块随机写入性能可能较低,但顺序写入和大块随机写入性能非常有竞争力,非常接近入门级 TLC DC SSD。
对于市场上基于 TLC 的闪存,写入速度较低,但读取性能即使不是完全具有竞争力,但仍然非常强大。 我们在本次审查中的重点是在 24 节点服务器中利用 5316 个 Solidigm P30.72 2TB SSD,展示了我们可以在其背后提供大量计算的情况下将它们推到多远。
上次我们查看类似的 Viking Enterprise Solutions 系统时,它被构建为在两个节点之间共享 24 个 SSD,每个节点都可以通过多路径访问每个 SSD。 VSS2249P 在后端使用类似的节点,尽管 12 个 SSD 直接连接到一个节点,其余 12 个连接到另一个节点。 这为每个 SSD 提供了完整的 4 通道 PCIe Gen4 通道返回到它所连接的节点。
我们在每台服务器上安装了 Ubuntu 20.04,并利用 FIO 同时使所有 24 个 Solidigm P5316 SSD 饱和。 每个 SSD 通过顺序填充完全填满,然后进行分区以将工作负载占用空间集中在驱动器表面的 5% 上。 我们专注于与传统闪存媒体重叠的 QLC 优化块大小。 主要区别归结为最小化小于 64K 的写入活动,这迫使 QLC 闪存的写入间接痛点。 话虽如此,我们测量的工作负载如下:
- 1MB连续
- 64K 连续
- 64K随机
- 64K随机70R/30W
- 64K随机90R/10W
- 4K 随机读取
在我们使用 1MB 顺序传输大小的第一个测试中,我们在 175.5 个 P24 SSD 上测得令人难以置信的 5316GB/s 带宽。 结果表明,前端每个 SSD 的速度刚好超过 7.3GB/s。 对于连续的 1M 写入工作负载,该数量为每个 SSD 56.1GB/s 或 2.34GB/s。
将块大小减小到 64K 工作负载,Solidigm P5316 SSD 提供 159GB/s 的带宽或每个 SSD 超过 6.62GB/s。 每个 SSD 的写入工作负载测得为 57.7GB/s 或 2.40GB/s。
由于并非所有工作负载都是顺序的,我们转向要求更高的 64K 随机工作集,这使 QLC SSD 处于压力最大的情况之一。 读取流量的带宽最高,达到了惊人的 176.3GB/s。 不过,从读取切换到写入,这是 P5316 SSD 承受最大压力的地方,每个驱动器的测量速度为 13.2GB/s 或 550MB/s。 这与此工作负载的规格表数字一致,但确实显示了这些 SSD 达到其极限的位置。
知道 64K 随机读取提供最高的驱动器性能而写入提供最低,我们研究了混合工作负载组合,以了解这些驱动器如何随着读/写平衡的变化而变化。 在 70% 读取 64K 随机工作负载的情况下,驱动器组测得 44GB/s。 然而,当我们进一步调整到 90% 读取时,带宽飙升至 130.7GB/s。 这进一步推动了这样一个观点,即部署在正确情况下的 QLC SSD 可以成为强大的驱动器,尽管它们并非旨在在所有情况下取代 TLC SSD。
结束测试后,我们查看了一项专注于 4K 随机读取性能的峰值吞吐量测试。 4K 写入被跳过,因为这些驱动器使用 64K 的粗略间接单元并且不会在 4K 上提供最高性能。 在 4K 随机读取中,我们测得接近 87GB/s 的 4K 流量或 21.2 万次 IOPS。 这是一个令人印象深刻的统计数据,与市场上的 TLC SSD 产品密切相关。
总结
过去,我们对 Solidigm 的 QLC SSD 进行了大量工作,但这是迄今为止我们对它们所做的最重要的工作,将近 750TB 的存储塞入了一个 2U 服务器。 我们想了解驱动器在分析和推理等应用程序可以利用现代平台设计的配置中的表现。 虽然对 QLC 的普遍感觉是它们只适用于价值或存档项目,但事实并非如此。
在性能方面,我们可以看到 VES VSS5316P 存储服务器中的 P2249 SSD 能够发布惊人的结果。 大块顺序性能使服务器饱和,每个 SSD 的读取性能几乎都达到了其 Gen4 U.2 托架的极限。 我们在 175.5M 读取中测得 1GB/s,计算得出每个 SSD 为 7.3GB/s。
随机读取性能也很好,在 176.3K 块大小下达到 64GB/s。 但是不要小看写入性能; 这些驱动器在大量阻塞的工作负载中表现出色。 64K 顺序写入测得为 57.7GB/s,而 64K 随机写入逐渐下降至 13.2GB/s。 以读取活动为重点的混合工作负载表现相当不错,我们在 44K 64/70 中测得 30GB/s,在 131K 64/90 中测得略低于 10GB/s。 最后,对于小块随机读取,我们在 86.9K 工作负载中测得惊人的 21.2GB/s 或 4M IOPS。
过去,我们已经完成了双节点 HA 版本的工作 维京企业服务器 利用双端口 TLC SSD。 虽然不完全是同类产品,但有一些有趣的趋势线表明这些 QLC SSD 与 TLC 解决方案相比非常出色。
两个驱动器组都能够驱动巨大的带宽,其中 TLC SSD 测量为 125GB/s,Solidigm P5316 QLC SSD 在 159K 顺序读取中测量为 64GB/s。 写入性能也很接近,TLC SSD 在 63.2K 顺序写入中的速度为 64GB/s,而 P5316s 为 57.7GB/s。
该数据并不意味着 QLC 可以在所有应用中完全替代 TLC,TLC 仍然具有很大的优势,因为写入百分比和对耐用性的需求增加。 不过,对于许多用例,QLC SSD 已准备好进行部署,并且通常比 TLC 竞争对手更快,尤其是在工作负载不是非常非常密集的写入时。
此外,如果您需要容量和性能的结合,QLC DC SSD 无疑会胜出,这是 QLC 以及未来 PLC SSD 的独特组合,可以很好地服务。 鉴于我们在这台 VES 存储服务器中发布了超过 175GB/s 的数据,在 3U 中将近 4/2 PB 的存储空间,机架效率看起来非常引人注目。
Solidigm 赞助了这份报告。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS订阅