首页 企业 OCP 的超大规模 NVMe 引导 SSD 规范带来性能、经济性和效率

OCP 的超大规模 NVMe 引导 SSD 规范带来性能、经济性和效率

by 莱尔·史密斯
nvme 引导驱动器

在过去的几年中,围绕超大规模空间中的引导驱动器的问题进行了大量讨论。 虽然超大规模用户不想在它们上花太多钱,但他们需要一个基本的最低性能阈值以及其他必要的规格。

在过去的几年中,围绕超大规模空间中的引导驱动器的问题进行了大量讨论。 虽然超大规模用户不想在它们上花太多钱,但他们需要一个基本的最低性能阈值以及其他必要的规格。

nvme 引导驱动器

还有一个问题是,谁会真正继续生产小容量 M.2 NVMe 引导驱动器,因为企业级 SSD 制造商大多退出了这个领域。 Solidigm 的存储产品组合中没有现代 M.2 启动驱动器,三星、铠侠和美光提供的大多数现代选项由于容量大而存在成本问题。 然后是性能需求。 虽然不是很好,但引导驱动器仍然需要可靠地产生最低限度的结果。

正如您在下图中所看到的,引导驱动器和数据驱动器的容量都在不断增长,这意味着组织的支出会增加。

超大规模 NVMe 引导驱动器要求和障碍

在 OCP 峰会上,谷歌和 Meta 代表在演讲中讨论了这些问题,最重要的是,他们正在做些什么来解决这些问题。

显示了一个超大规模启动 SSD 的示例,表示一天的活动,其中包括 I/O 读取和写入以及 TRIM 事务。 最引人注目的是 TRIM 的高吞吐量,它展示了短暂的数据(创建并在不久之后删除)。 如果设计不当,TRIM 将导致延迟停顿并干扰读写流量。 大部分流量也是随机读写。

Hyperscale NVMe Boot 面临的一些障碍包括:

  • 归根结底,超大规模工作负载对延迟很敏感,因此持续的性能对于带来高效的用户体验非常重要。
  • 大规模调试也具有挑战性,因此拥有详细的监控指标对于预测和检测故障至关重要。
  • 耐用性对于引导 SSD 非常重要。 在您完成系统(这可能需要一些时间)之后,具有高耐久性的引导驱动器将允许它们在整个产品生命周期中持续使用. 这也将有助于消除维修需求并防止过早磨损。
  • 最重要的是,超大规模客户非常重视隐私和安全,有时很难满足所有这些标准。

这是各种各样的问题,因此如果处理不当,解决这些问题可能是一个复杂的过程。

解决引导驱动器面临的问题

正如 OCP 背后的主要驱动力和目的一样,解决这些问题的唯一方法是通过协作和开放规范。 因此,Meta 和 Google 联手合并需求并创建 超大规模 NMEe 启动 SSD 规范(1.0 版),标志着启动驱动器效率的一个重要里程碑。 它于今年年初提交,可通过 OCP 网站获取。

这些规范有很多好处。 最终,它使市场能够更好地了解超大规模企业需要和用于其引导设备的功能,并确保他们在采用 SSD 引导驱动器方面获得行业一致。 此外,它还为组织提供了管理引导 SSD 的开源工具,从而促成了 3rd- 可以满足所有要求的派对测试套件。

在会议期间,他们还表示有两种方法可以创建超大规模启动 SSD。 要么降级企业级 SSD,要么升级消费级 SSD,因为它的要求介于这两个空间的中间。

启动台

我们已经开始在我们的 SSD 评测中添加启动台性能部分,这是 OCP 采用的工作负载配置文件,用于衡量专为服务器启动任务设计的 SSD。 此引导工作负载执行一个相对密集的测试计划,在测试读取密集型工作负载序列之前,用写入完全填充驱动器。

对于每个测试,它执行 32K 随机读取异步操作以及 15MiB/s 同步 128k 随机写入以及 5MiB/s 同步 128k 随机写入/修剪后台工作负载。 该脚本从 4 个作业级别的随机读取活动开始,并在其峰值时扩展到 256 个作业。 最终结果是在其高峰运行期间执行的读取操作。

此基准测试的 OCP 目标是在 60K 读取 IOPS 下通过/失败。 我们测试的大多数驱动器都将远远超过最低要求,但无论如何结果都具有指导意义。 在我们的测试中最有趣的是,我们能够使用面向性能的 NVMe SSD 模型远远超过 IOPS 阈值,但速度较慢的 SSD 却不能。 许多较慢的 SSD 型号似乎很容易落入不及格类别,尽管我们确实得到了 970 EVO Plus 2TB 型号报告较慢的不合格速度。

SSD 读取 IOPS
SK 海力士白金 P41 220,884 IOPS
西部数据 SN850X 219,883 IOPS
Solidigm P44 Pro 211,999 IOPS
毒液8 190,573 IOPS
三星990 Pro 176,677 IOPS
Sabrent火箭4 Plus 162,230 IOPS
三星 970 EVO Plus 2TB 52,005 IOPS
海盗船 MP600 GS 地下城与勇士
Solidigma P41 Plus 地下城与勇士

超大规模工作负载用例示例

在会议期间,他们还比较了两种不同的驱动器:一种更通用,另一种更符合 OCP 超大规模规范。 总的来说,他们发现后一种驱动器的整体延迟有了显着改善,这对超大规模空间来说非常重要。

在现实世界中,这意味着在尝试部署更符合规范的驱动器时,上市时间会明显缩短。

向前迈进 OCP 超大规模 NVMe 引导 SSD 规格

虽然一些公司之前正在创建自己的超大规模引导驱动器以满足他们自己的特定需求(以及来自客户的特定要求),但这些规范并未在行业中共享。 这导致供应商不得不生产自己定制的硬件/固件以满足客户的需求。

从那时起我们已经走了很长一段路,正如 OCP 现在所做的那样 他们的 Hyperscale NVMe Boot SSD 规范 1.0 版正式发布. 这使得系统制造商和 SSD 供应商能够始终按照一组共同的要求进行调整,同时鼓励进一步的合作。

OCP 呼吁所有 OEM(即系统制造商)和超大规模厂商加入这一事业,并承诺随着存储环境的变化不断发展和改进规范。

对企业的影响

引导驱动器需求不限于超大规模用例。 M.2 是目前大多数服务器和存储阵列事实上的引导驱动器标准。 虽然驱动器在大多数情况下不需要做很多事情,但它确实需要可靠、性能稍强并且不比绝对需要的更大(更贵)。 希望我们会看到存储供应商通过特定于启动的 SSD 响应这一举措,以便基础设施供应商能够保持一定程度的标准化。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅