首页 企业 英特尔存储性能 – Windows 服务器

英特尔存储性能 – Windows 服务器

by 布赖恩·比勒
Windows Server 中的英特尔存储性能

就在上周,英特尔发布了他们的 第三代至强 CPU,它建立在他们的生态系统之上,其中包括 Optane SSD 存储 P5800X 当然还有最新的 200 系列持久内存模块 (下午)。 在我们对英特尔存储进行初步审查后,我们决定重新利用实验室中的英特尔服务器和存储技术。 我们安装了 Windows Server 2019 来测试 Optane PMem 200、Optane P5800X SSD 和 TLC NAND P5510 固态硬盘 头对头。 本次审查的目的是评估 Windows Server 中的英特尔存储性能,以便我们可以更好地了解每种技术在裸机场景中的优势所在。

就在上周,英特尔发布了他们的 第三代至强 CPU,它建立在他们的生态系统之上,其中包括 Optane SSD 存储 P5800X 当然还有最新的 200 系列持久内存模块 (下午)。 在我们对英特尔存储进行初步审查后,我们决定重新利用实验室中的英特尔服务器和存储技术。 我们安装了 Windows Server 2019 来测试 Optane PMem 200、Optane P5800X SSD 和 TLC NAND P5510 固态硬盘 头对头。 本次审查的目的是评估 Windows Server 中的英特尔存储性能,以便我们可以更好地了解每种技术在裸机场景中的优势所在。

Windows Server 中的英特尔存储性能

Optane PMem 对比 Optane SSD 对比 NAND SSD

尽管英特尔长期青睐存储金字塔,但关于哪种存储技术适合特定应用程序或用例,仍然存在许多问题。 当然,DRAM 是最快的,但不幸的是,它也很昂贵。 Optane PMem 可以像 DRAM 一样使用,提供持久存储,不需要在重启时重新水化。 PMem 还利用传统的 DIMM 插槽,因此很容易插入。与传统的 SSD 相比,PMem 还具有令人印象深刻的性能配置文件。

英特尔数据金字塔

然后当然还有 Optane SSD,它已经过优化以吸收写入,这是传统 SSD 难以胜任的工作。 这就是为什么它们通常用作多层存储架构的一部分作为缓存或分层池。 尽管 Optane SSD 比 TLC NAND SSD 更昂贵,并且在容量方面存在巨大劣势,例如 P5800​​1.6X 的最高容量为 XNUMXTB。

向下移动我们有 TLC SSD,比如 英特尔 P5510,这符合每美元性能的最佳点。 最后在闪存领域,我们有 QLC SSD。 这些提供了最大的容量和每 TB 的价值,但确实更喜欢在读取密集型环境中,如果它们位于缓存或层后面,聚合写入并以温和和友好的方式将它们传送到 QLC SSD,那就更好了。 从那里开始,存储金字塔变成了一堆硬盘驱动器、磁带驱动器和云存储排列组合。

Intel Optane Persistent Memory 200 系列内存库

Windows Server 中的英特尔存储性能

为了评估这些最新的英特尔存储技术的性能,我们需要一种开销尽可能小的情况,同时仍能找到对 PMem 的良好支持,以及我们现有的测试方法。 第一个候选者是 Microsoft Windows Server 2019。我们正在英特尔 OEM 服务器上进行测试,该服务器旨在展示最新的平台技术,如第三代 Xeon、PMem 3 和对 PCIe Gen200 存储的支持。

英特尔 OEM 服务器规格

  • 2 x Intel Xeon Platinum 8380 @ 2.3GHz 40 核
  • 16 个 32GB DDR4 3200MHz
  • 16 个 128GB 英特尔持久内存 200 系列
  • 引导固态硬盘:英特尔 1TB SATA
  • 操作系统:Windows Server 2019

企业综合工作负载分析

我们的企业共享存储基准流程将每台设备预先设置为具有相同工作负载的稳定状态,该设备将在 16 个线程的重负载下进行测试,每个线程有 16 个未完成队列,然后在多个线程/队列中以设定的时间间隔进行测试深度配置文件以显示轻度和重度使用下的性能。 由于我们在每台设备上测试 20% 的小存储空间,我们只绘制出每个测试的主要部分。

预处理和初级稳态测试:

  • 吞吐量(读+写 IOPS 聚合)
  • 平均延迟(读+写延迟一起平均)
  • 最大延迟(峰值读取或写入延迟)
  • 延迟标准偏差(读+写标准偏差一起平均)

我们的企业综合工作负载分析包括四个基于实际任务的配置文件,其中 1T/1Q 4K 工作负载专注于低负载性能。 开发这些配置文件是为了更容易与我们过去的基准测试以及广泛发布的值(例如最大 4k 读写速度和 8k 70/30,通常用于企业驱动器)进行比较。

  • 4K 1T/1Q
    • 100% 读取或 100% 写入
    • 100% 4K
  • 4K 16T/16Q
    • 100% 读取或 100% 写入
    • 100% 4K
  • 8K 70/30
    • 70% 读取,30% 写入
    • 100% 8K
  • 8K(连续)
    • 100% 读取或 100% 写入
    • 100% 8K
  • 128K(连续)
    • 100% 读取或 100% 写入
    • 100% 128K

在我们的测试中,我们查看了英特尔第三代服务器平台内的三种存储配置。 其中包括:

  • 两个命名空间中的 16 x 128GB Intel Persistent Memory 200 系列(每个具有大约 1TB 的存储空间)
  • 2 个 800GB 英特尔 P5800X 傲腾固态硬盘
  • 8 个 7.68TB 英特尔 P5510 固态硬盘

每个设备组或命名空间都直接使用 FIO 作业进行测试,使用 20% 的设备容量足迹来衡量持续性能。 每组的每个设备都有自己的工作,并且汇总结果。 例如,对于两个被测试的设备,每个设备都有 1T/1Q 的工作负载,因此 1 个队列中的两个线程总计用于该工作负载。 八个设备将是一个队列中的八个线程,依此类推。

在我们的第一个测试中,我们专注于单线程、单队列深度 4K 随机读写工作负载。 离线性能对于许多应用程序来说很重要,因为一些设备不需要在它们背后有大量的 I/O 队列深度来发挥作用。

英特尔 PMem 在读取性能方面表现出显着优势,与双英特尔 P5800X 固态硬盘或八个英特尔 P5510 固态硬盘相比几乎翻了一番。 在写入性能方面,PMem 仍然优于 P5800X SSD,但八个 P5510 驱动器能够提供更高的吞吐量。

接下来,我们看看 1T/1Q 4K 读写测试的平均延迟影响。

英特尔 PMem 在 10K 随机读取中测量到 4 微秒的延迟,其次是 P5800X 的 24 微秒和 P5510 SSD 的 81 微秒。 查看写入延迟,我们发现 PMem 为 11 微秒,P23x SSD 为 5800 微秒,P27 SSD 为 5510 毫秒。

转向更重的相同 4K 读写测试,我们查看每种设备类型的最高点。

八块 Intel P5510 SSD 提供了最高的读取吞吐量,接近 4.8 万 IOPS,其次是 PMem,3.2 万 IOPS,双 P5800X 固态硬盘,1.7 万 IOPS。 在 4K 随机写入中,两个 P5800X SSD 以 1.91M IOPS 领先,其次是八个 P5510 SSD 以 1.78M IOPS 和两个 PMem 命名空间以 1.35M IOPS。

虽然吞吐量很重要,但作为 PMem 和 SSD,Optane 最有趣的方面之一是它处理存储延迟的能力。 我们在较重的 4K 随机读写工作负载中也看到了这一点。

Intel PMem 的读取延迟最低,为 159 微秒,其次是两个 P5800X SSD,为 296 微秒,最后是八个 P5510 SSD,为 427 微秒。 写入延迟有两个 P5800X SSD 领先,为 265 微秒,PMem 以 377 微秒落后,八个传统 P5510 SSD 为 1.147 毫秒。

将块大小提升到我们的 8K 70/30 工作负载,我们查看三种不同的存储类型以及它们如何响应不断增加的线程和队列计数。

在峰值性能方面,八块 Intel P5510 SSD 确实发挥了作用,并提供了一些令人印象深刻的峰值数据。 在顶部,它在 4.34T/16Q 时达到 16M IOPS 的最大值,尽管有趣的是看到 PMem 和两个 P5800X 能够在一些较低的线程和队列点略微领先。

 

将焦点切换到平均延迟,我们看到不同存储类型绘制的不同图片。 Intel PMem 虽然没有最高的吞吐量,但在此测试中能够以最低的平均延迟勉强通过,紧随其后的是 P5800X SSD。 八个 P5510 SSD 的延迟水平比两种 Optane 技术高得多(相对),尽管它们确实提供了迄今为止最高的吞吐量。

接下来,我们首先从 8K 传输大小开始处理顺序工作负载。

八块 Intel P5510 SSD 以 4.45 万 IOPS 轻松拿下本次测试,其次是 PMem 的 1.92 万 IOPS,最后是两块 5800 万 IOPS 的 P1.71X 固态硬盘。 在写入方面,PMem 以 1.75 万 IOPS 位居榜首,其次是 5510 个 1.55 万 IOPS 的 P5800 SSD,然后是 1.18 个 XNUMX 万 IOPS 的 PXNUMXX SSD。

在上次测试中,我们查看了三种不同存储介质的峰值带宽。 对于这两种 U.2 设备类型,一些有限的高端来自每个部署的通道数量。

从读取带宽的顶部开始,八个 P5510 以令人印象深刻的 54GB/s 进入,其次是具有两个命名空间的 PMem 提供 44GB/s,两个 P5800X SSD 以 14GB/s 的读取速度落后。 有趣的是,看看 PMem 在带宽方面可以达到多高。 切换到大块写入时,八个 P5510 SSD 以 32.7GB/s 位居榜首,其次是 PMem 以 14.3GB/s,然后是两个 P5800X SSD 以 11.1GB/s。 总体而言,整体数字非常可观。

总结

在过去几年中,英特尔一直在努力与 Optane 合作,推出 PMem 和 SSD 变体。 很明显,这种存储技术对他们来说至关重要,因为他们将一个全面的英特尔平台故事编织在一起,努力在数据中心抵御 AMD。 对于任务关键型工作负载,结果证实了这一点。 对于存储分层,P5800X 巧妙地位于 NVMe 设备层次结构的顶部,与上一代型号相比,性能有了巨大的提升,这在很大程度上要归功于 PCIe Gen4。 事实上,这种提升是如此之大,以至于它开始接近 PMem 提供的吞吐量,而不是带宽。

在整个测试过程中,我们看到的正是我们期望看到的。 在低队列深度的延迟和吞吐量方面,PMem 显示出巨大的性能价值。 它还在读取性能方面提供了巨大的带宽增益。 P5800X Optane SSD,即使在两个部署中,也开始全面接近 PMem。 这使得 P5800X 成为解决方案中 TLC 或 QLC 驱动器的绝佳配对,可以将它们用作缓存或层。

无论我们从哪里看 Intel Gen3 Xeon 平台,在存储方面都有很多值得喜爱的地方。 我们的发现突出体现在 PMem 的巨大读取带宽(最高 44GB/s 读取)和低队列深度 10K 随机读取和写入工作负载中的 4 微秒延迟。 P5800X 提供了类似的延迟优势,在更常见的 U.2 托架中具有更广泛的覆盖范围,在低队列和线程数下大约是英特尔 PMem 延迟的两倍。 即使是 P5510 SSD 在处理更高队列的工作负载时也显示了它们的优势,在顺序或随机 IO 基准测试中提供了图表一流的数字。

最重要的是,与上一代产品相比,最新一轮的英特尔存储设备,包括 PMem 和 SSD,都取得了实质性的进步。 现在英特尔能够为 DRAM 和 PCIe Gen4 插槽提供更快的总线,尤其如此。 通过这些裸机数据,我们可以看到每种技术的优势所在。 了解这些数据将使系统构建者能够智能地设计可以使任何应用程序脱颖而出的平台。

英特尔企业存储

参与 StorageReview

电子报 | YouTube | LinkedIn | Instagram | Twitter | Facebook | TikTokRSS订阅