首页 企业 边缘的 HCI 受益于英特尔傲腾和 QLC NVMe SSD

边缘的 HCI 受益于英特尔傲腾和 QLC NVMe SSD

by StorageReview 企业实验室

我们在 IT 社区中经常痴迷于展示马——最快和/或最强大的设备或系统——因为我们喜欢他们展示的那些大大小小的数字。 然而,现实是大多数用户根本不需要炫耀的马匹。 他们需要 主力马,能够以可承受的价格在日常工作中处理实际工作负载的系统。 我们花了相当多的时间研究 DataON 的超融合基础设施 (HCI) 产品,甚至给出了 DataON HCI-224 with Intel® Optane™ SSDs 我们的编辑之选 去年的奖。 在本文中,我们将研究另一个 HCI-224 双节点集群。 然而,这个具有独特的存储组合:英特尔傲腾固态硬盘前端英特尔®固态硬盘 D5-P4326 15.36TB 与 QLC 3D NAND,创建了一个优化容量、性能和成本的系统。

我们在 IT 社区中经常痴迷于展示马——最快和/或最强大的设备或系统——因为我们喜欢他们展示的那些大大小小的数字。 然而,现实是大多数用户根本不需要炫耀的马匹。 他们需要 主力马,能够以可承受的价格在日常工作中处理实际工作负载的系统。 我们花了相当多的时间研究 DataON 的超融合基础设施 (HCI) 产品,甚至给出了 DataON HCI-224 with Intel® Optane™ SSDs 我们的编辑之选 去年的奖。 在本文中,我们将研究另一个 HCI-224 双节点集群。 然而,这个具有独特的存储组合:英特尔傲腾固态硬盘前端英特尔®固态硬盘 D5-P4326 15.36TB 与 QLC 3D NAND,创建了一个优化容量、性能和成本的系统。

然而,在深入探讨这个集群之前,我们将首先讨论为什么 DataON 选择 QLC 作为其存储容量层,并回顾一下 微软 Azure Stack 超融合基础架构、DataON 和双节点 HCI 集群。 

英特尔®固态盘D5-P4326系列

在此 HCI 集群中使用基于 QLC 的英特尔固态盘 D5-P4326 作为容量存储是一个合乎逻辑的选择,因为它提供了稳定、可靠且经济高效的性能。 我们肯定见过更快的固态硬盘,但固态硬盘 D5-P4326 在性能和成本之间找到了适当的平衡,每个驱动器的容量高达 15.36TB。 这种组合是由于其底层架构。 使用英特尔® QLC 3D NAND 技术,英特尔能够降低该设备的成本,同时增加其容量。 

人机交互 QLC 固态硬盘英特尔是最早生产基于 QLC 的驱动器的存储供应商之一。 QLC 或四级单元技术在单个单元上存储四位数据,而 TLC、MLC 和 SLC 等较旧的技术每个单元仅存储三位、两位或一位数据。 由于 QLC 具有更高密度的存储,他们能够拥有更低的每 GB 存储成本。 此外,英特尔的 3D NAND 技术允许这些单元在芯片上水平堆叠,进一步提高存储密度。  边缘 HCI Optane QLC SSD虽然有一个妥协。 为了有效利用英特尔固态盘 D5-P4326 固态盘,写入工作负载需要在进入基于 QLC 的驱动器之前进行缓冲。 QLC SSD 非常适合容量优化的读取密集型工作负载。 因此,像 HCI 集群这样的平台需要在 QLC SSD 前面使用适当的缓存设备来提供均匀的性能。 对于 DataON HCI-224, 每个节点使用四个 Intel Optane SSD DC P4800X NVMe 750GB 2.5 英寸驱动器来吸收写入,然后再将数据向下移动到 QLC 层。 这种方法可以防止过多的写入导致 QLC 层的性能下降。 最终结果是客户获得无缝体验以及基于英特尔傲腾的性能与基于 QLC 的容量的完美结合。 

微软 Azure Stack 超融合基础架构

简而言之,Microsoft Azure Stack HCI 是 Microsoft Azure 云服务的本地实施。 基本上,Microsoft 将其现有的 HCI 技术引入了 Azure Stack 系列,因此他们的客户可以在本地运行虚拟化应用程序,并直接访问 Azure 管理服务,例如备份和灾难恢复。 

Azure Stack HCI 不应与 Azure 或 Azure Stack Hub 混淆。 Azure 是一种公共云服务,而 Azure Stack Hub 和 Azure Stack HCI 是本地解决方案。 此外,Azure Stack Hub 运行带有 Azure 服务的 Azure OS,是一个 IaaS 和 PaaS 解决方案。 另一方面,Azure Stack HCI 运行带有 Azure 服务的 Windows Server 操作系统,并允许您以与习惯相同的方式运行虚拟化工作负载,并具有能够连接到 Azure 云以获取其他服务的额外好处。 这是一个巨大的差异,允许 IT 管理员在 Azure Stack HCI 上使用与 Azure 相同的工具和管理堆栈。

微软 Azure 部署选项Azure Stack HCI 使用 Hyper-V 作为其管理程序,使用 Storage Spaces Direct 进行存储,使用 Microsoft 软件定义网络 (SDN) 进行网络连接,并使用 Windows Admin Center (WAC) 进行管理。 Azure Stack HCI 在标准 x86 服务器和其他商品组件上运行。

微软 Azure Stack HCI 解决方案WAC 是一个本地部署的、基于浏览器的管理平台,可以管理 Windows 10 和 Windows Server 的本地实例和基于 Azure 云的实例。 WAC 安装在 Windows 系统上并使用 PowerShell 脚本。 它还使用基于 WinRM(Windows 远程管理)的 Microsoft Windows 管理框架 (WMF) 来监视和管理 Windows 系统,包括 HCI 集群和 Azure 虚拟机。 

WAC 的主仪表板概述了被监控系统的 CPU、内存、网络和磁盘活动。 在屏幕左侧,WAC 还包括许多系统管理和浏览工具,包括证书、设备、事件、文件、本地用户和组、防火墙、进程、注册表、角色和功能、服务以及存储。

DataON WAC 傲​​腾 QLC SSDDataON 是最早利用 WAC 的开放框架并将其管理实用软件工具 (MUST) 扩展移植到 WAC 的公司之一。 DataON 必须为基于 Windows 服务器的 HCI、网络和存储提供基础设施可见性、监控和管理。

数据必须

DataON超融合基础架构

尽管 Azure Stack HCI 使用商品硬件组件,但这些项目必须设计为协同工作才能提供最佳结果。 在某些方面,设计高性能系统比主力系统更容易。 使用高性能系统,您可以选择同类最佳的组件而忽略成本。 但是对于主力,您需要评估组件的成本/性能,然后调整它们以优化它们的性能。 它需要同样多的——如果不是更多的话——工程努力来交付一个以价值为导向的系统,而这个系统 工程是我们继续对 DataON 印象深刻的地方.

DataON HCI 傲腾 QLC SSDDataON 与 Microsoft 和 Intel 建立了牢固的合作伙伴关系,他们在为 Azure Stack HCI 设计系统时利用了这些关系。 DataON 的 HCI Intel Select 解决方案可以在自己的机架中进行预配置和运输,准备立即部署。 这种交付方法不仅在数据中心有用,而且证明对部署在现有 IT 基础设施和人员有限或不存在的边缘的系统也是有益的。

2 节点 HCI 集群

我们最近做了一个 有关 Microsoft Azure Stack HCI 2 节点集群的文章 (2NC)。 以下是该文章的摘要。 我们发现,对于许多用例,2NC 可以为组织提供所需的弹性,并且 2NC 比传统的三节点或四节点集群更简单、成本更低。 DataON 是最早认识到 2NC 的价值并接受 2NC 集成的供应商之一。 但 2017NC 对 DataON 来说并不陌生,因为在 XNUMX 年 XNUMX 月,DataON 宣布了前两个商用产品 开普勒 47 HCI 适用于 Windows Server 2016 Storage Spaces Direct 系统(现为 Azure Stack HCI)。 

DataON 的 2NC 实现支持同时出现驱动器故障和服务器故障。 它通过使用 RAID 5 + 1 执行奇偶校验弹性并将其镜像到其他服务器来实现这一点。 Microsoft 将此功能称为“嵌套弹性”,并将此功能添加到 Windows Server 2019 中的 Storage Spaces Direct。同样,2NC 并不是每个人的正确技术选择,但它们可以为许多组织提供可靠且具有成本效益的解决方案。

建筑与设计

我们在这里使用的 Azure Stack HCI 集群构建在 DataON HCI-224 全闪存 NVMe 平台上。 这些服务器的大小为 2U,前面有 24 个 NVMe 托架,为基于 PCIe 的组件提供了大量的后部扩展。 标签与哑光黑色驱动器盒形成鲜明对比,便于在需要更换时发现特定驱动器。 一切都被贴上了标签,这并不少见,但标签的范围非同寻常。 我们的部署有每个节点标记(1 和 2),以及其他几个项目,使得在数据中心部署和管理 DataON 系统变得容易。

此测试中的节点包括双 2nd Gen Intel® Xeon® Scalable Gold 6248 2.5 GHz、20 核、28MB 高速缓存处理器,以及八个 Samsung 32GB DDR4 2933MHz ECC-Registered RDIMM(每个节点总共 256GB),以及双 Intel S4510 480GB SATA M.2 引导驱动器。

对于存储,每个节点配备四个 Intel Optane SSD DC P4800X NVMe 750GB 2.5 英寸驱动器(用于缓存)和四个 Intel SSD D5-P4326 15.36TB 2.5 英寸 QLC 驱动器(容量存储层)。 

这些节点使用 4M Mellanox LinkX ETH 28GbE、40Gb/s、QSFP 无源铜缆通过 Mellanox ConnectX-56 EN 双端口 QSFP3 40/40 GbE 卡相互连接。

显然,DataON 在该系统的配置和组件选择方面花费了大量时间和思考,以平衡性能和成本。 我们非常有兴趣了解英特尔固态盘 D5-P4326 固态盘作为存储层的表现。 通过结合英特尔傲腾固态硬盘和英特尔 QLC 3D NAND 固态硬盘,D5-P4326 固态硬盘应该提供高性能层和具有成本效益的闪存存储,这曾经是缓慢但大硬盘驱动器的领域。

在 StorageReview 实验室中,我们部署了两个存储节点和交换机,如下图所示。

2 节点 HCI Optane QLC SSD

测试 

为了了解像这样的小型集群在边缘用例中的表现如何,我们设置了几个 Microsoft SQL Server 测试。 目标是检查完整的集群性能,以确保 DataON 可以正确使用英特尔傲腾技术和英特尔 QLC SSD。 其次,我们想检查单个节点的功能,以了解此解决方案如何处理节点丢失,无论是针对计划更新还是在发生更严重的故障时。 

我们的测试计划利用 Quest 的 Benchmark Factory,使用 TPC-C 配置文件作为我们部署的 SQL Server VM 的负载生成器。 我们配置了八个虚拟机(每个节点四个),这为集群提供了 CPU 和磁盘活动的良好平衡。 工作负载生成器托管在该环境之外的系统上,并通过 10GbE 网络连接到该集群。

SQL Server 测试配置(每个虚拟机)

  • Windows服务器2019的
  • 存储空间:分配 800GB,使用 620GB
  • 8 个 vCPU
  • 60GB RAM(55GB 失败模式配置)
  • SQL Server的2019的
    • 数据库大小:1,500 规模
    • 虚拟客户端负载:15,000
    • 内存缓冲区:48GB
  • 测试时长:3 小时
    • 15分钟预处理
    • 45分钟采样期

在我们的测试中,我们专注于延迟性能,事务性能水平与 Benchmark Factory 保持一致。

DataON K2N HCI-224 英特尔 D5-P4326 性能1在总负载为 4 个虚拟机(每个节点 2 个)的情况下,我们测得平均延迟为 2.5 毫秒,总事务负载为 12,649TPS。

DataON K2N HCI-224 英特尔 D5-P4326 性能2将负载增加到 6 个虚拟机,平均延迟略微增加到 4 毫秒,总事务负载为 18,967TPS。

HCI SQL Server 性能重在 8 个虚拟机(每个节点 4 个)的峰值负载下,平均延迟达到 6.5 毫秒,总事务负载为 25,277。 

在这些测试中,我们清楚地看到了在这种组合中使用傲腾 SSD 的好处。 他们首当其冲,将 QLC SSD 释放出来,作为高速容量层进行响应式读取。 即使我们将工作负载加倍到八个 SQL Server VM 来访问这个 HCI 集群,延迟也只增加了一点点,表明这种配置非常适合可能不时爆发的工作负载。 

虽然在完全可操作的环境中的性能很重要,但另一个考虑因素是如果集群中的节点脱机或需要迁移工作负载以进行系统维护,则工作负载将如何运行。 为了测试这种情况,我们保留了 8 个虚拟机的全部负载并将它们迁移到单个节点。 在此设置中,我们测得的平均延迟仅为 4.5 毫秒,这比两个在线节点都要好。 部分原因是消除了单节点操作中的存储开销。

总结 

对于这个项目,我们在系统上运行了一系列 SQL 测试,以说明边缘和 SMB 用例中常见的性能工作负载。 我们的目标是了解此 DataON 集群中的 Microsoft Azure Stack HCI 如何有效地利用硬件来实现预期的结果。 具体来说,这意味着提供一种罕见的性能和价值组合的解决方案。

通过我们的测试,我们可以确认 DataON 的组件选择确实成功地创建了一个性能极其出色的经济高效的 Azure Stack HCI SDS 解决方案。 这部分是由于他们选择使用英特尔固态盘 D5-P4326 进行容量存储,从而有效地利用英特尔傲腾固态盘进行分层。 

这是一个关键的概念,因为 QLC SSD 为集群提供了大量、密集的容量,同时仍然提供闪存存储带来​​的 TCO 优势。 为了强调这一点,QLC 驱动器每个 15.36 英寸驱动器托架可实现 2.5TB 的容量。 RAID 8 中需要 2 个 0TB HDD 才能匹配容量,或者切换到 3.5 英寸机箱以利用更大但速度更慢的 HDD。 无论哪种方式,从英特尔 QLC 驱动器到硬盘驱动器的性能下降都非常可观; 在应用程序响应能力方面,这是一个指数级的差异。

尽管我们希望所有读取和写入都来自 Optane SSD(因为它们是此配置中性能最高的介质),但有时会出现失误。 在这种情况下,QLC SSD 的性能将击败硬盘驱动器,保护 HCI 集群免受结合闪存和硬盘驱动器的拓扑结构中常见的性能异常的影响。 事实上,我们在这里看到了如此平衡的性能,以至于未来,一般公司可能需要重新考虑 HDD/闪存设计,并更倾向于 QLC/Optane 设计,以在 HCI 中获得最大收益。 

2 节点集群的另一个主要问题是处于降级状态时的性能。 我们通过使一个节点失败并将所有 SQL 工作负载分配给单个节点来对此进行测试。 在这种情况下,SQL 比 2 节点的响应更快,性能也更好,这主要是由于节点到节点通信的开销减少了。 当然,不建议长时间在这样的降级状态下运行,但知道可以在不牺牲性能的情况下完成它是令人欣慰的。 

总体而言,配备 D224-P5 QLC SSD 的 HCI-4326 HCI 集群易于部署、易于使用且功能强大,足以应对各种工作负载。 它的价格点也使它可供广大用户使用。 最重要的是,该系统已通过 Microsoft Windows Server 2019 认证,并被验证为英特尔精选解决方案。 

DataON 英特尔 QLC 信息图

达达

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS订阅

本报告由 DataON 赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。