英特尔推出了 傲腾 DC 持久内存模块 2019 年春季,作为弥合易失性 DRAM 和高性能 SSD 之间差距的一种方式。 一年多后,英特尔在该平台上构建了英特尔傲腾持久内存 200 系列或简称傲腾 PMem 200。 新模块针对新 第三代英特尔至强可扩展处理器, 与英特尔 SSD 的组合非常适合平台游戏。 PMem 200 据称可提供比 Gen32 多 1% 的内存带宽,这是一个很好的提升,我们将在本次评测中进行测试。
英特尔推出了 傲腾 DC 持久内存模块 2019 年春季,作为弥合易失性 DRAM 和高性能 SSD 之间差距的一种方式。 一年多后,英特尔在该平台上构建了英特尔傲腾持久内存 200 系列或简称傲腾 PMem 200。 新模块针对新 第三代英特尔至强可扩展处理器, 与英特尔 SSD 的组合非常适合平台游戏。 PMem 200 据称可提供比 Gen32 多 1% 的内存带宽,这是一个很好的提升,我们将在本次评测中进行测试。
作为背景,我们之前对 PMem 有广泛的报道。 这个迭代与第一个迭代没有太大区别,因此大多数先前的工作在架构、收益等方面今天仍然非常相关。 如果您需要加快 PMem 的速度,这里有一些要点:
- 播客 #60: Kristie Mann,英特尔持久内存
- 英特尔傲腾 DC 持久内存 NoSQL 性能评估
- Supermicro SuperServer 与 英特尔傲腾 DC 持久内存初审
- 英特尔解释 PMem 200 与 DAOS 的优势
在本次审查中,我们汇集了多种技术的完美结合。 在硬件方面,我们有一个英特尔 OEM 盒子,配备了 PMem 200 模块和最新的 Xeon 可扩展 CPU。 我们在 MemVerge memory Machine v1.2 之上分层,这是专门为最好地利用持久内存模块而构建的软件。
英特尔傲腾持久内存 200 系列的新功能
200 系列的大部分优势都与第三代英特尔至强可扩展处理器的提升有关。 显然内存带宽吞吐量的最大差异,PMem 3 获得了 200 MT/s 的支持。 但是还有其他一些与绝对性能相关的好处。
之前版本的核心数量为 8-28 个核心,在 200 系列中它从 16 个核心增加到 40 个。使用第一个 PMem,用户可以添加 3TB 的 PMem,每个插槽的总内存为 4.5TB,现在每个插槽总数为 6TB,添加了 4TB 的 PMem 200。 最大热设计功率从 18W 降至 15W。 最新的持久内存带有 eADR,即扩展的异步 DRAM 刷新。
PMem 100 与 200 性能差异 (512GB)
记忆体 | 英特尔Optane | 英特尔傲腾 200 |
耐力 100% 写入 15W 256B | 300体重体重 | 410体重体重 |
耐力 100% 写入 15W 64B | 75体重体重 | 103体重体重 |
带宽 100% 读取 15W 256B | 5.3GB /秒 | 7.45GB /秒 |
带宽 100% 写入 15W 256B | 1.89GB /秒 | 2.60GB /秒 |
带宽 100% 读取 15W 64B | 1.4GB /秒 | 1.86GB /秒 |
带宽 100% 写入 15W 64B | 0.47GB /秒 | 0.65GB /秒 |
英特尔傲腾持久内存 200 系列规格
兼容处理器 | 3 插槽平台上的第三代英特尔至强可扩展处理器 | |||||
外形 | 持久内存模块 | |||||
SKU | 128 GB | 256 GB | 512 GB | |||
用户容量 | 126.7 GB | 253.7 GB | 507.7 GB | |||
最小起订量 | 4 | 50 | 4 | 50 | 4 | 50 |
技术 | 英特尔Optane技术 | |||||
有限保修 | 5 年 | |||||
AFR | ≤0.44 | |||||
耐力 100% 写入 15W 256B | 292体重体重 | 497体重体重 | 410体重体重 | |||
耐力 67% 阅读; 33% 写 15W 256B |
224体重体重 | 297体重体重 | 242体重体重 | |||
耐力 100% 写入 15W 64B |
73体重体重 | 125体重体重 | 103体重体重 | |||
耐力 67% 阅读; 33% 写作 15W 64B |
56体重体重 | 74体重体重 | 60体重体重 | |||
带宽 100% 读取 15W 256B |
7.45 GB /秒 | 8.10 GB /秒 | 7.45 GB /秒 | |||
带宽 67% 读取; 33% 写 15W 256B |
4.25 GB /秒 | 5.65 GB /秒 | 4.60 GB /秒 | |||
带宽 100% 写入 15W 256B |
2.25 GB /秒 | 3.15 GB /秒 | 2.60 GB /秒 | |||
带宽 100% 读取 15W 64B |
1.86 GB /秒 | 2.03 GB /秒 | 1.86 GB /秒 | |||
带宽 67% 读取; 33% 写 15W 64B |
1.06 GB /秒 | 1.41 GB /秒 | 1.15 GB /秒 | |||
带宽 100% 写入 15W 64B |
0.56 GB /秒 | 0.79 GB /秒 | 0.65 GB /秒 | |||
内存频率 | 3200 MT/s | |||||
最大热设计 | 15W | 18W | ||||
温度(最大值) | ≤ 83°C(85°C 关机,83°C 默认)介质温度 | |||||
温度(环境) | 48°C @ 2.4m/s 12W | |||||
温度(环境) | 43°C @ 2.7m/s 15W | |||||
MemVerge 管理
MemVerge Memory Machine v1.2 仍然利用 我们在原始评论中看到的相同 GUI. Global Dashboard 通过专注于 DRAM 和 PMem 使自己脱颖而出,其中大多数 GUI 关注 CPU、内存、存储和网络等事物。 对于 IO 密集型应用程序,显示跨多个系统的存储使用情况的仪表板可能很有价值。 对于以内存为中心的应用程序,Memory Machine Global Dashboard 提供了跨多个服务器可视化内存使用情况、节点状态、事件和警报的独特功能。
因为这是重点,我们可以在测试时监控 DRAM 和 PMem 带宽,因为大多数用户都在利用该技术。 DRAM 和 PMEM 使用数据是系统管理员调整大小决策的指南,可帮助他们了解性能调整和调试所需的工作负载行为。 例如,当工作负载达到内存使用峰值时,或者它是否定期分配和释放内存时,管理员可以看到持续的内存使用情况。 当应用程序因 OOM 而崩溃时,这一点尤为重要。 管理员可以查看内存使用数据,以快速准确地确定它发生的时间。
在实例选项卡下,我们可以看到 Redis 实例及其摘要。
MemVerge Memory Machine 管理界面可以帮助管理员处理许多用例:
崩溃恢复——快照 GUI 用于快速恢复数据库和/或排除故障原因。 数据库日志和 Memory Machine Dashboard 数据确定崩溃时间,允许管理员选择和恢复最接近崩溃时间的快照。 然后,开发人员可以使用该还原的实例进行调试。
使用 Memory DVR 加速动画和 VFX – 艺术家希望在基础 Maya 场景上探索不同的选项。 他们加载基础场景,应用更改,并将其保存为不同的项目。 它们可以保存许多单独的场景,但要显示这些选项,它们必须反复重新加载,这需要很长时间。 使用内存 DVR 功能,您可以加载一次基本场景,拍摄快照作为基本快照,然后应用您的更改并拍摄另一张快照。 要应用不同的效果,只需恢复快照、编辑并拍摄另一张快照即可。 内存快照的恢复速度是几秒钟,而从存储中重新加载场景则需要几分钟。
使用内存 DVR 加速基因组分析——科学家们想要使用不同的参数设置来试验机器学习算法。 他们加载数据、设置参数、运行算法并检查结果。 如果结果不好,则重新加载数据,应用一组不同的参数,然后再次运行算法。 使用内存 DVR 功能,您可以一次加载数据并拍摄快照。 从那时起,如果结果不好,恢复基础数据并在几秒钟内完成另一次使用新参数的运行。
英特尔傲腾持久内存 200 系列 性能
虽然 PMem 可以作为块存储进行测试(我们过去做过),但 PMem 的真正优势体现在您可以通过适当的软件在字节级别利用它。 在许多情况下,像 SAP 这样的应用程序开发人员会调整他们的应用程序以能够利用 PMem。 虽然这适用于某些应用程序,但还有另一种选择。 利用从头开始构建的软件定义解决方案,帮助企业利用 PMem 200 提供的所有性能和持久性优势。 为了测试最新一代的 PMem,我们正是这样做的。
在利用持久内存方面,MemVerge 提供了最全面的产品之一。 我们看了一下 MemVerge 记忆机器 今年早些时候。 MemVerge 发布了软件更新,以利用新的 Xeon CPU、PMem 200 和英特尔发布的所有新存储。 MemVerge Memory Machine 现已推出 v1.2,具有多项新优势,前两项是支持第三代 Intel Xeon 可扩展处理器和支持 Intel Optane Persistent Memory 200 系列。
Memory Machine v1.2 提供了对 Linux 上的 Microsoft SQL Server 的支持,他们表示他们可以在相同的内存成本下将 OLTP 性能提高一倍。 它还支持 KVM 虚拟机管理程序,可以动态调整每个 VM 的 DRAM:PMEM 比率。 Redis 和 Hazlecast 等内存数据库集群现在具有 HA 和协调的内存快照。 最后,v1.2 对整个数据中心的 DRAM 和 PMem 进行了集中式内存管理。
Ice Lake 平台——英特尔 OEM 服务器
- 2 x Intel Xeon Platinum 8380 @ 2.3GHz 40 核
- 16 个 32GB DDR4 3200MHz
- 16 个 128GB 英特尔持久内存 200 系列
- 引导固态硬盘:英特尔 1TB SATA
- 数据库固态硬盘: 英特尔 P5510 7.68TB
- 操作系统:CentOS 8.3.2011
Cascade Lake 平台 – Supermicro SYS-2029U-TN24R4T
- 2 x Intel Xeon Platinum 8270 @ 2.70GHz 26 核
- 12 个 16GB DDR4 192GB
- 12 个 128GB 英特尔持久内存 100 系列
- 启动固态硬盘:1TB SATA 固态硬盘
- 操作系统 CentOS 8.2.2004
Optane 和 MemVerge Memory Machine 都更适合内存应用程序。 我们的基准测试通常被视为正常的高压力工作负载,这些工作负载将在 IT 运营的现实生活中出现。 相反,在这里我们将研究一些不同的测试,我们将专门研究诸如 DRAM 与 PMem 与 DRAM + PMem 之类的东西,以及每种测试的结果。 对于这次审查,我们将使用 KDB Performance 进行批量插入和读取测试,以及使用 ZeroIO 快照的 Redis 快速恢复和使用 ZeroIO 快照的 Redis 克隆。
KDB 性能测试
Kx 的 kdb+ 是一个时间序列内存数据库。 它以其速度和效率而闻名,因此在金融服务行业非常受欢迎。 kdb 的一大限制是 DRAM 容量的限制。 MemVerge Memory Machine 非常适合这里,因此 kdb 可以充分利用 PMem 来扩展内存空间,性能与 DRAM 相似。 对于批量插入测试,我们查看了单个插入、10、100 和 1000 个插入,并以每秒数百万次批量插入为单位进行了测量。 我们只关注 DRAM 和具有 DRAM 分层的内存机器。
通过 KX kdb+ bulk,我们同时关注 Cascade Lake 和 Ice Lake。 结果以百万记录/秒 (MR/s) 记录。 从 Cascade Lake 开始,在同一批次中,这三个都差不多。 一旦我们开始上升,DRAM 就一直领先,直到达到约 142 MR/s 的峰值。 带 DRAM 分层的 MM 赶上了 1000 批次大关。
Ice Lake 上的相同测试开始时大致相同:一批看到两者大致相等,在 10 批中 DRAM 和 MM w/DRAM 分层相同,但在 100 MM w/DRAM 分层时这次以 333 MR/秒。 两者在 500 批次时以 1000 MR/s 的速度回升,这比 Cascade Lake 顶峰高出 3.5 多倍。
接下来,我们通过读取测试查看了 kdb+。 这里的测试设置有点不同。 读取测试始终相同,但这次我们只查看 DRAM,然后查看具有 40GB DRAM 分层的 Memory Machine。 在 Xeon Gen 2 DRAM 上只能达到 4.22GB/s,而 MM w/40G DRAM 分层达到 4.83GB/s。
对新处理器的相同测试为我们提供了 5.13GB/s 的 DRAM 和高达 9.77GB/s 的 MM w/40G DRAM 分层。
总结
随着新处理器的推出,新的 PMem,即英特尔傲腾持久内存 200 系列,该公司采用了现有产品,并在最有效的地方进行了改进。 该公司声称其性能比原来提高了 32%,现在内核数增加到 40 个,并支持 3200MT/s。 虽然它们的模块容量与上一版本相同,分别为 128GB、256GB 和 512GB,但英特尔已经做到这一点,因此用户可以在每个插槽中添加更多模块,从而使总 RAM 占用空间达到 6TB。 为了测试新的 PMem,我们与 MemVerge 及其新发布的 Memory Machine v1.2 合作。
在利用 MemVerge Memory Machine v3 的全新 Intel Xeon Gen1.2 平台的应用测试中,我们看到了与上一代 Intel Xeon 平台相比的巨大进步。 在测量单批、10 批、100 批或 1000 批批量插入速度的 Kdb+ 写入测试中,我们测得 Gen3 Xeon 平台作为一个整体比接近顶级规格的 Gen2 平台获得了巨大的收益。 在 1000 批插入的峰值时,我们看到 Xeon Gen142 上的差异约为 2 亿条记录/秒 (MR/s),而 Xeon Gen500 上为 3 MR/s,相差 3.5 倍。 在 Kdb+ 读取测试中,比较 Memory Machine + Pmem + 40GB DRAM 分层,我们在 Xeon Gen4.83 上测得 2GB/s,而 Xeon Gen3 扩展到令人印象深刻的 9.77GB/s。
总体而言,正如我们在使用 MemVerge 进行的测试中看到的那样,新的英特尔至强 Gen3 版本以及英特尔傲腾持久内存 200 系列有很多令人喜欢的地方。 虽然英特尔平台的最大变化包括更快的处理器、更快的 DRAM 和 Gen4 PCIe 支持,但英特尔的 PMem 200 和合适的应用程序可以真正改变许多关键任务用例的方程式。 SAP HANA 等本机与 PMem 交互的应用程序将很高兴能够访问所有这些英特尔技术。 对于所有其他想要利用 PMem 200 的人,MemVerge 提供了一条简单的采用途径。
参与 StorageReview
电子报 | YouTube | LinkedIn | Instagram | Twitter | Facebook | TikTok | RSS订阅