VAST资料 已宣布支持名为 Ceres 的下一代存储平台。 在 VAST 的通用存储数据平台的支持下,Ceres 是利用最新的硬件技术构建的,例如 NVIDIA BlueField DPUs(数据处理单元)。 在存储方面,Ceres 利用成本优化且高密度的 Solidigm EI.L 标尺闪存驱动器和存储级内存 (SCM) SSD。 硬件组合构成了全新的 VAST 数据节点 (DNode),可提高性能、简化可维护性并降低数据中心成本。
VAST资料 已宣布支持名为 Ceres 的下一代存储平台。 在 VAST 的通用存储数据平台的支持下,Ceres 是利用最新的硬件技术构建的,例如 NVIDIA BlueField DPUs(数据处理单元)。 在存储方面,Ceres 利用成本优化且高密度的 Solidigm EI.L 标尺闪存驱动器和存储级内存 (SCM) SSD。 硬件组合构成了全新的 VAST 数据节点 (DNode),可提高性能、简化可维护性并降低数据中心成本。
VAST Data Ceres 1U DNode
根据 CMO 和联合创始人 Jeff Denworth 的说法,VAST 的核心任务是简化基础架构,使其更易于部署和管理,同时更具成本效益。 VAST 着手制作一个数据管理系统,并构建一个可以简单且经济高效地扩展的系统。 关键是构建一个基于闪存的系统,该系统将满足性能需求、寿命长且成本低。
我们花了几天时间使用 VAST Data 来更好地了解这一切是如何组合在一起的。 毕竟,VAST 是一家软件公司。 在过去,这意味着兼容硬件是由客户或系统集成商从兼容列表中选择出来的。 VAST 的工作方式略有不同。 VAST 的硬件合作伙伴 AVNET 将硬件组合在一起,但最终解决方案感觉更像是一种设备,而不是传统的软件定义存储。
最终,运行 VAST 通用存储平台的硬件的进步是一个主要的差异化因素。 利用 NVIDIA BlueField 等新兴数据传输技术的能力使硬件非常独特。 除了少数或更少的初创公司之外,自闪存和混合存储阵列推出以来,数据存储架构确实没有发生根本性转变。 随着 VAST Ceres DNodes 的推出,这种创新的萎靡不振在今天很明显地结束了。
浩浩荡荡
新架构的创建是为了解决可扩展性问题,并消除对访问大量驱动器的无状态容器的需求,以及必须相互协调 I/O 操作的必要性。 所以VAST设计了DASE, 分解共享一切,一种存在于 VAST NVMe 机柜中的低成本闪存中的数据结构。
VAST 系统形成一个集群和一个存储池,存储柜包含不同数量的不同大小的 SSD 和具有不同内核数甚至不同 CPU 架构的前端服务器。 这允许 VAST 用户无缝地运行具有多代 VAST 硬件的集群。
在 VAST 的 DASE 架构中,所有的 SSD 由所有前端协议服务器通过 NVMe-oF 共享和直接寻址。 VAST 的数据放置方法在设备上运行,而不是节点/机柜级别。 系统根据系统中所有 SSD 的性能、负载、容量和耐用性选择 SSD 写入每个纠删码条带。 此负载在容纳不同容量和性能级别的 SSD 的机柜之间进行平衡。
该系统通过解析 DNS 请求并将系统内务管理分片分配给 CPU 使用率最低的协议服务器,从而在不同性能级别的前端协议服务器之间实现类似的负载平衡。
所有这些都允许 VAST 集群跨多代异构协议服务器、机箱和 SSD 创建一个单一的、负载均衡的命名空间。 VAST 用户只需将新服务器和/或机柜加入到他们的集群中,并在设备使用寿命结束时将其逐出。
VAST 服务器是无状态容器,可在标准 x86 服务器中运行 VAST 集群的所有逻辑。 使用 NVMe over Fabrics,每台服务器都可以像 DAS 一样以低延迟访问每个 NVMe 闪存和存储级内存存储设备。
容器使得将 VAST 部署和扩展为软件定义的微服务变得简单,同时也为更具弹性的架构奠定了基础,在该架构中,容器故障不会中断系统运行,从而形成世界上第一个网络规模的“分解、共享一切”建筑学。
VAST NVMe 机柜是高可用性、高密度闪存存储 JBOF。 存储处理责任已与 VAST 机柜分离,因此系统被分解。 由于系统中没有运行逻辑,因此组织可以独立于计算来调整存储容量,以调整其环境的大小。 由于该系统是完全容错的,集群可以从一个机柜开始构建,也可以扩展到超过 1,000 个机柜。
不仅要解决所有系统相互通信的需求,而且要线性扩展,这一点也很重要。 新系统旨在使用称为全局代码的算法从闪存驱动器中获得最大效率。 VAST 在使用内存和闪存组合通过系统时使用形状写入,从而消除了闪存磨损。 VAST 使用其通用存储软件实现了两倍的闪存寿命(超过 SSD 供应商保修)。
VAST 的重点不是最终性能,而是基础架构成本和整合带来的简单性优势。 VAST 为每个数据中心、每个应用程序和每个用户提供民主化的闪存。 由于性能不是最终目标,VAST 意识到从 PB 级到 EB 级的弹性、经济实惠的闪存容量的聚合闪存性能将支持现代计算议程。 IOPS 和带宽现在是闪存容量的副产品,一切都变得“足够大”。
VAST 已发展成为一家高级存储供应商,继续保持闪存不可知论。 最初的 VAST 硬件是一个 2U 机架式,可以容纳 1.3PB 闪存,而最新型号是一个 1U 机架式单元。 这让我们想到了 Ceres 以及与 NVIDIA 的合作。
NVMe-oF 和通用存储
VAST 解决方案的一个关键方面是高级软件工程。 大数据、机器学习和深度学习等数据驱动的应用程序需要提供更多数据才能发挥作用。 将数据从闪存分层到存档会导致应用程序无法学习。 尽管硬盘驱动器一直被认为是具有成本效益的数据存储介质,但它们也伴随着成本。 硬盘驱动器即使在密度增加时也以恒定速率运行,从而导致性能下降。
硅存储,又名闪存,旨在消除 HDD 介质固有的性能下降。 然而,闪存技术的创新并没有跟上企业对密度和性能的需求,迫使客户不断妥协。 从历史上看,企业闪存系统的成本远高于基于 HDD 的存储,因此闪存仅用于最有价值的数据。
VAST 决定通过将新的存储算法与新技术相结合,使所有数据的闪存存储基础设施民主化来解决这个问题,挑战关于如何构建和部署存储的基本假设。 解决方案是以存储级内存速度写入,以 NVMe 速度读取,并扩展到数百万 IOPS 和 TB/s。 NVMe-over-Fabrics (NVMe-oF) 使商用数据中心网络能够转变为可扩展的存储结构,将 NVMe DAS 的性能与共享存储基础设施的效率相结合。
Solidigm E1.L 固态硬盘
为了满足成本/性能需求,QLC 闪存将实现 VAST 概念的经济目标,同时提供 NVMe 闪存性能来为世界上要求最苛刻的应用程序提供动力。 四级单元 (QLC) SSD 是闪存密度的第四代和最新一代,因此制造成本最低。 QLC 在相同空间内存储的数据比三级单元 (TLC) SSD 多 33%。
虽然 QLC 将每 GB 闪存的成本降低到前所未有的低水平,但在每个单元中压缩更多位是有成本的。 每一代连续的闪存芯片都通过在单元中安装更多位来降低成本,并且耐用性较低,在较少的写入/擦除周期后就会磨损。 各代闪存的耐用性差异巨大。 第一代NAND(SLC)可以覆盖100,000次,QLC耐久度低100倍。 这是一个重大的权衡,这就是为什么使用 QLC SSD 的存储供应商必须以创造性的方式这样做。
VAST的通用存储 系统旨在通过使用与低成本 QLC SSD 的内部几何结构一致的新数据结构和用于吸收写入的大型存储类内存写入缓冲区,提供时间和空间来最大程度地减少闪存磨损,从而最大限度地减少闪存磨损。 该组合使 VAST Data 能够为 QLC 闪存系统提供 10 年保修,从而对系统所有权经济产生积极影响。
存储类内存
利用位于闪存和 DRAM 之间的新型非易失性存储介质,存储级内存是使 QLC 在企业环境中部署成为可能的支持技术。
存储类内存是一种持久性内存技术,与 SSD 中使用的 NAND 闪存相比,延迟更低且更耐用,同时保留了闪存在无需外部电源的情况下持久保留数据的能力。 通用存储系统使用存储类内存作为高性能写入缓冲区,以便为系统的数据存储和全局元数据存储部署低成本的 QLC 闪存。
铠侠 FL6 SCM SSD
通用存储集群包括数十至数百 TB 的存储级内存容量。 与 DRAM 相比,VAST DASE 架构的优势包括极低的延迟、100% 的持久性和低成本。 虽然 VAST 目前支持英特尔和铠侠的 SCM SSD,但该平台能够支持其他上市的驱动器。
通用存储图形用户界面
存储管理领域的独特之处在于访问用于配置、管理和维护存储介质的 GUI。 Universal Storage 系统提供了一个 GUI 界面,使存储管理员的工作更加轻松。 这种性质的系统往往是 CLI 驱动的,因此易于使用的界面是 VAST 的一个重要区别。
此显示显示每个驱动器的估计可用容量。 左栏允许管理员选择任何可用的功能。 图中的每个“切片”都显示了驱动器使用情况,右侧提供了这些切片的详细信息。 驱动器使用类型是可用容量。
仪表板显示详细信息,包括容量、物理和逻辑使用情况、整体性能,以及底部的读/写带宽、IOPS 和整体延迟。
数据流显示就是这样一个有用的工具。 它显示了用户来源、主机 IP、Vip、CNode 和目的地。 通常,这将通过命令行为沿途的每条路径执行,没有图形显示。 仅此屏幕就可以通过跟踪每个用户的数据路径来减少故障排除。
GUI 还可以选择显示硬件的前视图和后视图。 Ceres 前视图的屏幕上会显示所选驱动器的轮廓。 直观的视觉指示器还有助于在需要更换 SSD 时提高可维护性。
在同一屏幕上,可以从服务器后部选择正在使用的 SSD 之一。
VAST Data Ceres DPU
新的 Ceres 存储平台概念开创了 NVIDIA BlueField DPU 和基于标尺的超大规模闪存驱动器,作为可扩展数据集群的分解构建块。 VAST 的通用存储支持 Ceres 的下一代高性能 NVMe 盘柜。
英伟达 DPU
VAST Data 的首席营销官 Jeff Denworth 解释道;
“一年前,我们向行业分享了我们对超大规模数据基础设施的愿景,我们对行业合作伙伴对这一愿景的合作和支持感到惊讶。 虽然爆炸性的数据增长继续压倒那些在海量数据储备中寻找价值的挑战越来越大的组织,但 Ceres 使客户能够在构建到 SuperPOD 规模及更高规模时,实现对所有数据进行大规模人工智能和分析的未来。”
VAST 和行业合作伙伴设计的 Ceres 旨在将存储推进到现代 AI 时代,带来新的速度、弹性、模块化和数据中心效率。 VAST 的使命是为企业和服务提供商配备新功能,而这些新功能原本是世界上最大的超大规模云提供商的专有领域,而 Ceres 进一步推进了这一使命。 VAST Universal Storage 软件为新的硬件平台提供支持,使客户能够采用尖端技术。
这个新平台提供了更高的性能、改进的功率和空间效率。 利用 NVIDIA BlueField DPU 技术可以构建 NVMe 机箱,而无需大型、耗电的 x86 处理器。 通过将 NVMe-oF 服务从 x86 服务器过渡到 BlueField DPU,NVIDIA 技术使开发能够提供每个机箱超过 1GB/s 性能的 60U 外形成为可能。 VAST 的 DASE 架构旨在通过将存储处理与闪存层分离来利用基于 DPU 的系统。
VAST Data Ceres 硬件布局
第一眼或第二眼,VAST Ceres 看起来就像一个典型的 1U 服务器,带有非常光滑的边框。 时尚的面板专为气流而设计,但它甚至可以在通电时以一些凉爽的照明点亮前置 SSD。 VAST 标志还以其配色方案点亮,这是一种很好的美感。 对外部细节的关注贯穿于内部结构,揭示了一个绝非典型的存储服务器。
拆下边框后,您终于开始看到这台服务器的真正独特性和闪存密度。 前期是 22 个 E1.L SSD,在本例中是 22 个 15.36TB 或 36.72TB Solidigm P5316 SSD。 这些驱动器还提供更大的 2.5" U.2 外形规格,但每个机架单元的密度大大降低。 E1.L SSD 在散热方面也有明显的优势,超长的机身设计提供了很大的表面积来散热。
E1.L 外形非常长,因此称为“标尺”。 它们的长度刚好超过 12.5 英寸,这让您可以了解它们仅在服务器的第一英尺就占据了多少空间。 现在,虽然几乎 340TB 或 675TB 的 QLC 闪存(取决于所选的驱动器)是无可挑剔的,但在服务器的中间组件后面还有更多的闪存。 值得注意的是,这只是 QLC 驱动器的原始存储空间; VAST 在顶部提供数据缩减以获得更好的密度。
前面的标志块隐藏了另外四个 SSD 托盘,并作为机箱前面的一个整体冷却组件。 这个块有三个风扇,它们通过位于这个特定 DNode 中心的 KIOXIA SCM 闪存在机箱中心提供额外的冷却能力。
四个托盘中的每一个都装有两个 2.5" U.2 SSD,在这个系统上是 KIOXIA 的 FL6 800GB SSD。 VAST 使用这些作为写入缓冲区来吸收传入数据,然后将其过滤到围绕它们的更高密度 QLC 闪存中。 这台 1U 服务器上没有未充分利用的空间,没有以某种方式利用更多的存储容量。
VAST Ceres 底盘的后视图显示它已设计为具有双电源和双控制器的完全冗余。 每个控制器都装有两个 NVIDIA BlueField BF1600 DPU,每个 DPU 都提供双 100GbE 端口。 总的来说,在两个控制器中,用户拥有 800Gb/s 的连接速度。 每个控制器都有两个用于管理的 1GbE 端口和一个用于直接 BMC 访问的微型 USB 端口。
每个控制器底座的内部设计也确实没有留下任何未使用的空间。 每个 NVIDIA BF1600 DPU 通过 x16 PCIe Gen4 插槽连接,额外的电源通过机箱外部卡外的小笼子路由。
虽然 VAST Ceres 内部设计看起来有点像传统的服务器 sled,但它没有底层服务器 x86 或类似的服务器设计。 每个控制器实际上是一个大型 PCIe 交换机,将 DPU 连接到内部和前端可访问的存储。 虽然 NVIDIA BF1600 DPU 确实为 BIOS 和操作系统提供 16GB eMMC 存储,但 VAST 设计为通过每个 sled 两个 m.2 SSD 在额外的内部 DPU 存储中。
查看 VAST Ceres 的框图确实有助于描绘出该系统的设计方式的最佳图景。 前面有两组 SSD 和 NVRAM/SCM 驱动器,然后在每个控制器底座内的两个 DPU 之间分配。 每个 sled 都是一个大型 PCIe 交换机,将 NVMe PCIe 存储直接引导到安装在其中的两个 NVIDIA DPU。 还有一些附件组件也涉及该结构,例如 BMC、管理 NIC 和 M.2 SSD。
这是算法
如上所述,Ceres 采用新的基于标尺的高密度 SSD,可提供超高密度闪存容量配置。 随着时间的推移,基于标尺的闪存驱动器具有更大的表面积,预计将比传统的 NVMe 驱动器包含更多的闪存容量。 VAST与合作伙伴 固晶 证明他们的 15TB 和 30TB 长标尺可在 675U 机架空间中提供高达 1TB 的原始闪存。
Solidigm 在 SK 海力士收购英特尔 NAND 和 SSD 技术后于 2017 月推出。 Solidigm 作为 SK 海力士公司的独立美国子公司运营。新子公司位于圣何塞,负责管理所收购英特尔资产的产品开发、制造和销售。 Intel/Solidigm “ruler”外形规格于 1 年推出,正式名称为 E1.L 和 E1.S。 Solidigm 提供了具有这种外形设计的广泛产品组合,并具有针对高密度存储 (E1.L)、可扩展性能 (E2.S) 和主流 3U 服务器 (EXNUMX) 的灵活优化选项。
借助 VAST Data 基于相似性的数据缩减算法,Ceres 可以以平均 2:3 的数据缩减率管理每个机柜近 1PB 的有效容量。 此外,VAST 的写入整形技术可延长 QLC 闪存的耐用性。 同时,先进的纠删码也大大加快了重建超大容量存储设备的时间。
Ceres 旨在解决客户在处理高密度存储系统时遇到的许多问题。 该系统设计为前后均可维修,无需电缆管理,也无需将系统滑入和滑出机架。
Ceres 平台以 338TB 的最小容量入口点降低了前期硬件成本,同时支持无缝集群扩展到数百 PB。 用更少的硬件提高了机架规模的弹性,以在通用存储集群中实现全封闭故障转移。 客户可以灵活地将 Ceres 与上一代 VAST 支持的硬件混合搭配,以实现无限的集群生命周期。
NVIDIA 副总裁兼 DGX 系统总经理 Charlie Boyle 在谈到为 NVIDIA 客户带来的好处时说:
“企业级别的简单性和弹性是 NVIDIA 的关键成功因素,因为 AI 基础设施在全球范围内得到广泛采用。 我们与 VAST 合作是因为他们架构的性能、成本效益和简单性可以满足 DGX SuperPOD 解决方案和依赖它的客户的需求。 VAST Universal Storage 和 Ceres 平台还使 NVIDIA 客户能够在 AI 数据中心端到端地实现 NVIDIA DPU 的优势,以及由 BlueField 创新提供支持的卓越性能、安全性和效率。”
VAST 和 NVIDIA SuperPod 等
VAST 和 NVIDIA 还在合作开发新的存储服务,以通过客户端 DPU 实现零信任安全和卸载功能,例如最近宣布的 NVIDIA DGX SuperPOD 配置中引入的那些。 作为与 NVIDIA 合作的一部分,VAST 正在为 NVIDIA DGX SuperPOD 认证 Ceres。 SuperPOD产品专为大规模AI工作负载而设计,汇集了高性能存储和网络,为企业客户提供一站式AI数据中心解决方案。
SuperPod 超级计算基础设施旨在解决行业向 AI 的转型,部署为一个完全集成的系统。 在 VAST 的 DASE 支持下,Ceres 是 SuperPod 的数据平台基础。 该 Ceres 平台设计最初将由 AIC 和 Mercury Computer 等 VAST 设计合作伙伴制造。 它将作为 VAST 通用存储集群的数据容量构建块。
借助 Ceres,NVIDIA 客户现在可以通过系统架构享受 NAS 解决方案的简单性以及无限的规模和性能,该系统架构从根本上提高了存储弹性,VAST 在 EB 级生产数据中的 99.9999% 可用性记录证明了这一点。 凭借全闪存性能和存档存储经济性,VAST 将使 NVIDIA DGX SuperPOD 客户轻松扩展其 AI 训练基础架构以支持 EB 级数据,而无需为传统分层存储架构强加的性能和容量权衡而烦恼。 阅读此处,详细了解 VAST 如何简化 DGX SuperPOD 上的扩展 AI 开发。
NVIDIA DGX SuperPOD 的 VAST 数据通用存储认证计划于 2022 年中期推出。
总结
拥有一些世界上最大的计算环境的组织已经选择了 Ceres。 VAST 已收到软件订单,支持在 Ceres 平台上部署超过 170PB 的数据容量。
虽然 VAST 首先是一家软件公司,但硬件提供了一个有趣的视角,让我们了解企业存储市场的前景。 虽然一些供应商仍在沿着使用传统服务器方法围绕 x86 硬件构建平台的道路前进,但 VAST 正在走一条不同的道路。 多年来,传统的服务器模型表现良好,尽管随着存储和网络组件的发展,存储服务器设计也必须如此。
VAST Data Ceres DNodes 将高达 675TB 的 QLC 闪存(数据压缩前)和 6.4TB 的 SCM 与四个 NVIDIA BlueField DPU 相结合,在 800U 机箱中提供高达 1Gb/s 的连接速度。 这可以通过切断中间人(在本例中是 x86 服务器)并将其替换为 PCIe 交换结构以将 22 个 E1.L 和 8 个 U.2 SSD 直接链接到四个 DPU 来实现。 由于 DPU 执行繁重的工作并在上面安装 VAST 软件,因此几乎不需要额外的工作。
虽然我们非常喜欢 VAST Data Ceres 的硬件创新,但软件让一切变得不同。 用于保护 SSD 耐久性的写入整形、用于多次扩展容量的数据缩减以及简化标准功能的 GUI 只是热门话题。 使用 VAST,最终结果是一个功能惊人的集群,由于数据节点平台上的所有创新,它带来了有益的成本经济。 任何组织不仅希望处理庞大的数据,而且希望根据分析提供的洞察力做出业务决策,最好安排一个 VAST 数据演示 立即使用.
本报告由 VAST Data 赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS订阅