首页 企业AI Quantum Myriad:适用于任何工作负载(尤其是人工智能)的现代架构

Quantum Myriad:适用于任何工作负载(尤其是人工智能)的现代架构

by 布赖恩·比勒

Quantum Myriad 是一个现代、灵活的 SDS 平台,能够处理各种工作负载,包括要求苛刻的 AI 任务。

2023 年,昆腾与 Myriad 推出了全新的现代软件定义存储。我们完成了一个 深入探索 Myriad 去年年底,其极其强大且具有弹性的架构给我留下了深刻的印象。 Myriad 的多样化功能集和协议灵活性将其用例范围扩展到企业文件共享需求之外。目前没有比人工智能更受需求的应用程序了。

量子无数节点紧

人工智能正在从根本上改变企业格局,为决策带来新的见解,实现复杂流程的自动化,并为公司与客户互动和管理运营创造新的方式。以下是人工智能产生影响的几个关键领域:

自动化:人工智能通过聊天机器人自动执行日常的、容易出错的任务,例如数据输入和客户支持,甚至找到优化供应链管理等复杂流程的方法。这可以节省时间,让人们专注于更具创造性或战略性的任务。

数据分析:它比人类更快地挖掘大量数据以找到模式和见解。这有助于企业做出更明智的决策、预测市场趋势并更好地了解客户。

个性定制:公司利用人工智能为个人客户量身定制服务和营销,例如推荐引擎可以了解用户喜欢在 Netflix 或 Spotify 上看到的内容。

加强安全性:人工智能是网络安全领域的重要参与者,有助于立即检测和响应威胁。它始终保持警惕,扫描任何可疑的东西。

創新 :人工智能通过模拟产品设计、外观和感觉以及维护的各个方面,帮助开发新产品和服务(从药物到新材料)来推动创新。它甚至可以在药物物理试验之前预测结果。

可扩展性和灵活性的挑战

传统存储系统通常无法有效扩展,而这对于生成和处理大量数据的人工智能应用程序至关重要。传统存储可能需要大量停机时间或复杂的升级以及网络配置和分配才能增加容量。这在动态人工智能环境中是不可行的,动态人工智能环境需要快速可扩展性、零停机时间以及在不损失性能的情况下部署模型。

AI 工作负载也需要高吞吐量 同时低延迟。传统系统通常配备机械驱动器和过时的网络,无法满足这些速度要求,从而导致阻碍人工智能运行的瓶颈。现代人工智能从 NVMe 和 GPU 加速等更快的技术中受益匪浅,而这些技术通常与旧系统不兼容。

人工智能应用程序需要来自不同来源的实时数据访问和分析。传统存储通常是孤立的,阻碍了数据集成和移动,限制了有效的数据分析和机器学习。遗留管理工具还难以应对人工智能所需的复杂数据治理和自动分层。

对于人工智能需求来说,传统存储维护和升级成本高昂且效率低下,包括电力、冷却和空间的高昂运营成本。改造旧系统以支持新技术在经济上是不可持续的。

人工智能的蓬勃发展依赖于自动分层、实时分析等现代存储功能以及加密等强大的安全措施。遗留系统缺乏这些关键功能,而这些功能对于保护人工智能数据和满足监管标准至关重要。

现代化数据管理和存储基础设施对于利用人工智能的变革潜力至关重要。针对人工智能复杂性而设计的下一代存储解决方案可以显着提高性能、可扩展性和成本效率,从而促进创新应用程序和业务模式。

认识量子无数

Quantum Myriad 是一款高性能、软件定义的全闪存存储解决方案,旨在满足现代应用程序的需求,特别是那些需要高吞吐量和低延迟的应用程序。对于人工智能、数据科学、视觉特效和动画来说尤其如此。 Myriad 的云原生架构提供灵活性、易于部署以及对系统更改的自动响应,无论是在本地还是在 AWS 等公共云环境中。

Myriad 的设计致力于提供一致的低延迟和高带宽。对于需要闪电般快速的数据处理和实时性能的应用程序来说,这些品质绝对是必备的。

Myriad 的架构高度灵活,可以轻松适应小型和大型部署。从一个小系统开始,然后发展一个 Myriad 集群是很容易的。当您添加更多节点时,它会线性扩展,同时仍然保持高效和平衡。

使用 Myriad 管理集群非常简单。它具有零点击存储扩展和用户友好的管理门户等功能,有助于减少对持续管理关注的需要。 Myriad 通过分布在其节点上的事务性键值存储来保证数据完整性,并在所有可用存储节点上管理错误纠正。

Myriad 具有令人印象深刻的网络支持。通过融合以太网 (RoCE) 的 RDMA 支持以及通过 BGP 路由与现有网络部署的集成,数据可以轻松地流入和流出 Myriad 集群,同时利用先进的网络功能。

Myriad 设计为用户友好型,只需最少的步骤即可设置和运行或添加额外的共享位置。这使得它非常适合需要快速适应不断变化的存储需求的企业,特别是因为该解决方案在标准的现成服务器上运行。另外,如果您着眼于云,Myriad 可以与 AWS 等平台很好地配合,这样您就可以扩展到本地设置之外。

经测试的量子无数配置

测试的 Quantum Myriad 是五个节点的基本配置。每个节点都配备了 15 个 XNUMXTB SSD,整个集群的快速访问存储总量非常可观。这种基本设置允许提供大量数据存储容量,同时保持高 I/O 操作和快速数据检索所需的速度——所有这些对于实时处理和人工智能计算都是至关重要的。存储节点由 SuperMicro 指定和配置,NVMe 驱动器可从三星轻松获得。

经过测试,我们使用了在 5 节点集群中配置的 Myriad 平台,每个平台都具有以下关键规格:

  • 配备单 1010 核 AMD EPYC CPU 的 Quantum Myriad N64 存储节点
  • 10 个 15.36TB NVMe TLC
  • 2 个双端口 100GbE 以太网端口

Myriad 的组成部分是负载均衡器节点,部署在跨所有存储节点交叉连接的冗余对中。这些对于管理进出存储节点的数据流量至关重要。这对负载均衡器确保网络流量在存储节点之间均匀分布,防止任何单个节点成为瓶颈。在需要同时进行数据访问和处理的情况下,这在数据访问的速度和可靠性会显着影响整体系统性能的环境中极其重要。

使用多个节点和负载平衡器可以提高性能并增强系统的可靠性和容错能力。即使一个节点遇到问题,分配存储和网络负载也可以使系统继续高效运行。此设置对于维持正常运行时间和确保关键业务应用程序中的数据完整性至关重要。

基本配置设计灵活,可以根据需要添加更多存储节点来扩展。您可以通过合并更多节点、使用更密集的 NVMe 驱动器或同时使用这两种方法来扩展存储容量。例如,您可以将配备 30TB 驱动器的新存储节点添加到当前使用 15TB 驱动器的系统,或者可以在现有占用空间内升级到更密集的驱动器模块。对于希望看到数据需求增长或经历可变数据使用模式的企业来说,这种可扩展性至关重要。

Comino GPU Load Gen 服务器

为了运用 Myriad 系统并生成基准,我们使用了一对 Comino Grando 系统。 Comino Grando 系统是高性能液冷装置,专为最大限度地提高负载下的 GPU 效率和稳定性而设计。它们特别适合密集的计算任务,例如人工智能、数据分析和图形密集型应用程序中遇到的任务。以下是我们为此测试配置的关键方面的摘要:

格兰多服务器 格兰多工作站
中央处理器 Threadripper Pro W5995WX 线程撕裂者 Pro 3975WX
公羊 512GB内存 512GB内存
GPU 2X NVIDIA A100 2X NVIDIA A100
网卡 4 个 NVIDIA ConnectX 6 200G EN/IB 4 个 NVIDIA ConnectX 6 200G EN/IB
电源供应器 4 个 1600w PSU 3x 1000 SFX-L 电源
2TB NVMe 2TB NVMe

Comino Grando 采用先进的处理器和 GPU 液体冷却系统,其中包括防滴水连接和大型水分配块,可有效管理冷却液流量,即使在高负载下也能保持性能。此设置可提高性能并最大限度地减少噪音。

使用 nvidia-smi top -mp 命令显示我们系统中的 GPU 和 NIC 映射以及数据必须采用的路径。这是传说:

X =SYS = 穿越 PCIe 的连接以及 NUMA 节点之间的 SMP 互连 (例如,QPI/UPI) 
NODE = 穿越 PCIe 的连接以及 NUMA 节点内 PCIe 主桥之间的互连 
PHB = 穿越 PCIe 以及 PCIe 主桥的连接 (通常是CPU) 
PXB = 穿越多个 PCIe 桥接器的连接 (无需遍历 PCIe 主桥) 
PIX = 连接遍历于 最先进的 单个 PCIe 桥接器

从这里,我们可以看出,我们不希望将 GPU1 与 NIC4 和 NIC5 一起使用以获得最佳性能,尽管这在我们的综合测试中发挥的作用有限。

量子万千AI测试

我们进行了技术分析,以评估 Quantum Myriad 存储集群的性能及其对现实世界人工智能工作负载的影响。我们的分析重点是集群有效优化资源利用和规模的能力。在整个测试过程中,我们采用了配备 NVIDIA ConnectX-6 200GbE NIC 和双 NVIDIA A100 GPU 的高端 Comino 机架工作站。这些至关重要,因为它们代表了类似于大型人工智能项目中可能采用的强大测试环境。

我们利用一个简单的 shell 脚本来帮助创建 GDS 测试脚本并解析输出。风格点的 ASCII 艺术

这些测试的主要目的是评估 Quantum Myriad 集群处理密集 IO 操作的能力,以及它如何适应高容量 GPU 的吞吐量,这对于 AI 计算至关重要。鉴于人工智能工作负载严重依赖于数据集的快速处理,存储解决方案以与 GPU 处理能力相匹配的速度提供数据的能力直接影响整体系统效率和性能。

我们用于测试的主要工具是 NVIDIA 的 GPUDirect Storage I/O (GDSIO)。 GPUDirect 是一项关键技术,旨在提高存储系统和 GPU 之间的数据传输效率,简化高性能计算、人工智能和大数据分析中至关重要的工作流程。

该技术可实现从存储直接到 GPU 内存的直接内存访问 (DMA),实际上绕过了 CPU。这消除了不必要的数据副本,从而减少了延迟并提高了吞吐量。 GDSIO 是 GPUDirect 的综合实现,特别适合需要快速处理大型数据集的应用程序。这包括机器学习模型训练或实时数据分析。它还提供存储和网络基础设施的分析和调整反馈。

在存储基准测试中,GDSIO 在准确评估大量使用 GPU 的环境中存储解决方案的性能方面发挥着至关重要的作用。通过提供更直接的数据传输路径,GDSIO 允许进行基准测试来衡量存储系统在支持 GPU 加速应用程序方面的真正潜力。

AI共享配置

登录 Myriad 时,用户会看到一个仪表板,其中显示了集群当前性能和规格的高级概述。用户可以轻松查看遥测数据,例如 IOPS、吞吐量、延迟和使用情况。

将鼠标悬停在任何图表上都可以提供非常详细的性能信息。

查看文件系统屏幕,可以直观地查看当前配置的共享挂载点。

节点页面很有趣,它显示了集群、控制器和负载均衡器的物理图,以及端口活动和 NVMe 驱动器。

单击任何驱动器都会显示主机报告的状态。

前往“共享”,用户可以根据需要轻松配置共享,并获取在各种操作系统中安装它们的说明。

我们与 Quantum 合作为我们的测试设置了专用的 NFS 共享。这些安装在 /mnt/myriad/

这是通过用户友好的 Myriad UI 实现的,它提供了简单的点击式配置设置。在测试期间,SMB 选项处于早期访问阶段,而 NFS 仍然是我们基于 Linux 的工作负载机器的首选协议。

我们的 NFS 挂载点配置为 500TB 空间,但您可以通过扩展文件系统来使用您需要的任何空间。您可以自由地超额配置存储而不会受到任何处罚,并且大小没有硬性限制。当您考虑 Myriad 的数据压缩时,这变得非常有趣,它从本质上减少了 NVMe SSD 上的数据占用空间。

每个主机有一个挂载点,每个 GPU 都有自己的子文件夹,使用自己的 NIC 来避免 NFSv4 限制。

量子无数人工智能结果与分析

首先,让我们看一下其中一个 loadgen 运行的整体性能。这个 GPU 存储视角的示例代表了我们在所有节点/GPU 上可以看到的性能。

IO 类型 IO 大小 (KiB) 吞吐量(GiB/秒) 平均延迟(微秒) 运营
兰德写入 1024 2.57 10,087.74 78,820
兰德瑞德 1024 6.92 2,277.86 209,319
兰德写入 4096 3.44 18,193.14 56,616
兰德瑞德 4096 3.64 6,481.70 73,715
兰德写入 4 0.03 2,307.57 237,512
兰德瑞德 4 0.12 497.05 941,971
您是我们的客人? 1024 2.79 5,609.64 94,017
1024 3.11 5,021.91 95,556
您是我们的客人? 4096 2.77 22,551.26 31,716
4096 3.50 17,875.32 31,871
您是我们的客人? 4 0.08 812.93 580,169
4 0.12 507.34 926,909

测试结果揭示了对 Myriad 在各种 IO 操作和规模上的性能的重要见解。我们的一些发现包括:

  • 小块和大块性能: 测试显示,处理小块(4 KiB)与大块(1024 KiB 和 4096 KiB)时,吞吐量和延迟存在显着差异。例如,4096 KiB 的大块 RANDREAD 操作表现出最高吞吐量,约为 9.64 GiB/秒,平均延迟相对较低,为 6,481.70 微秒。这表明机器学习模型训练中常见的大规模数据处理任务具有出色的性能,其中经常访问大型数据集。
  • GPU饱和能力: 在大块测试期间实现的吞吐量,特别是 RANDREAD 操作,表明 Myriad 存储集群非常有能力在推理检索类型工作负载中支持 NVIDIA A100 GPU,并在训练工作负载期间将检查点卸载到中央位置。鉴于 A100 可以处理用于深度学习的大量数据,高吞吐率对于确保这些 GPU 不会闲置等待数据至关重要,从而最大限度地提高计算效率。
  • 低块大小处理: 相反,当检查 4 KiB 块的操作时,我们观察到操作数量和延迟急剧增加,而吞吐量显着下降。此场景对于了解发生多个小文件事务的环境(例如处理大量小查询的在线事务处理系统或数据库)中的性能至关重要。

但是,等等,还有更多!

重点关注 4K 测试,当我们为 Myriad 加载更多 GPU 时,事情发生了有趣的转变。正如在发现阶段的初始运行中所发现的那样,由于安装协议的限制,Myriad 的行为符合预期,但出现了令人惊讶的变化。当我们同时在所有 GPU 上加载 Myriad 时,得益于一些脚本技巧,结果令人印象深刻。 Myriad 同时向所有节点提供基本相同的性能。

4K 文件大小

以下是 4 次同时运行的 XNUMXK 工作负载的汇总:

Node IO 类型 吞吐量(MiB/秒) 平均延迟(微秒) 运营
1 兰德瑞德 125.73 497.05 941,971
2 兰德瑞德 121.29 506.67 907,642
3 兰德瑞德 128.37 474.73 906,847
4 兰德瑞德 122.93 487.88 966,441
总随机读取 498.31 491.58 3,722,901
1 兰德写入 27.08 2,307.57 237,512
2 兰德写入 26.88 2,285.62 231,625
3 兰德写入 26.10 2,406.89 228,983
4 兰德写入 28.27 2,341.65 245,172
总随机写入 108.34 2,335.43 943,292
1 123.19 507.34 926,909
2 125.69 511.23 900,136
3 123.90 502.04 945,949
4 123.77 502.36 948,850
总阅读量 496.54 505.74 3,721,844
1 您是我们的客人? 76.87 812.93 580,169
2 您是我们的客人? 80.17 839.88 551,311
3 您是我们的客人? 78.62 783.24 556,060
4 您是我们的客人? 73.40 811.62 597,226
总写入量 309.06 811.92 2,284,766

4MB 文件大小

Node IO 类型 吞吐量(GiB/秒) 平均延迟(微秒) 运营
1 兰德瑞德 3.44 6,481.70 73,715
2 兰德瑞德 3.97 6802.17 75,689
3 兰德瑞德 3.83 6498.16 73,277
4 兰德瑞德 3.50 6,589.43 70,443
总随机读取 14.75 6,593 293,124
1 兰德写入 3.44 18,193.14 56,616
2 兰德写入 3.4048 19090.38 54,725
3 兰德写入 3.4349 18125.25 56,277
4 兰德写入 3.5084 17018.30 54,397
总随机写入 13.78 18,107 222,015
1 3.50 17,875.32 31,871
2 3.4388 17110.93 31,119
3 3.5133 18124.53 31,096
4 3.3035 17755.53 31,257
总阅读量 13.75 17,717 125,343
1 您是我们的客人? 2.77 22,551.26 31,716
2 您是我们的客人? 2.8845 23674.69 33,017
3 您是我们的客人? 2.7008 22661.31 30,971
4 您是我们的客人? 2.7719 22798.83 29,519
总写入量 11.13 22,922 125,223

Quantum Myriad 独特的存储架构提供双重可访问性,有利于 GPU 操作和并发用户活动,而不会造成性能损失。这在需要同时访问和处理数据的高需求环境中特别有效,类似于人工智能和机器学习服务器以及最终用户分析师访问的用户社区。通过支持 GPU 的大数据块访问以及其他用户操作,Myriad 可确保高效的资源利用并防止瓶颈。这对于在实时分析和人工智能模型训练等应用中保持高运行速度和数据准确性至关重要。

这里值得注意的是,Quantum Myriad 的派对技巧在于它能够熟练地处理多个数据流,而这正是 NFSv4 的限制,而 NFSvXNUMX 在高 GPU 负载下很容易受到影响。该系统先进的数据管理功能可防止这些限制影响 Myriad 平台的整体性能,确保高要求的 GPU 任务不会减慢同一网络上的其他操作。此功能对于需要强大的数据处理能力而不牺牲并发任务性能的行业特别有利,支持所有用户的无缝工作流程。

现实世界的影响和规模

Quantum Myriad 有潜力轻松处理现实世界的应用程序和扩展场景。它以高吞吐量和低延迟处理大块的能力有利于人工智能工作负载,包括训练批量处理大型数据集的深度学习模型。高吞吐量可确保数据无延迟地输入 GPU,这对于保持高利用率和高效学习至关重要。

另一个重要特征是可扩展性。我们的测试中 Quantum Myriad 存储集群的性能表明它可以有效地支持更大的配置。随着连接设备(例如,额外的 GPU 或其他高性能计算单元)数量的增加,存储系统似乎能够维持高水平的数据传输,而不会成为瓶颈。

在我们的测试中,Quantum Myriad 存储集群在大块 RANDREAD 操作期间的性能尤其引人注目。在考虑现代人工智能和机器学习框架的需求时,这种能力至关重要。

RANDREAD 测试以其巨大的吞吐量展示了 Myriad 快速有效地检索大量数据的能力。这在推理工作负载的背景下变得尤为重要,其中数据访问的速度直接影响生产环境中人工智能模型的性能。推理任务通常需要快速访问大型数据集以进行实时决策,因此 Myriad 集群所展示的高速数据检索功能极大地受益。例如,在实时图像识别或驱动自动化系统的复杂决策引擎等应用中,以最小延迟提取大数据块的能力可确保推理引擎能够以最高效率运行,而不会因数据而停滞。

在测试阶段,Myriad 展示了在训练工作负载期间处理检查点数据的稳健性,这与写入操作期间集群的性能同样重要。训练现代人工智能模型,尤其是深度学习网络,涉及迭代过程,其中检查点至关重要。这些检查点代表特定迭代中模型的状态,需要定期保存,以确保进度不会丢失,并且可以有效地微调模型,而无需从头开始重新训练。 Myriad 有效地将大型写入操作卸载到存储集群,减少 I/O 时间并允许 GPU 专注于计算而不是数据处理。

Myriad 的架构可确保随着数据需求的扩展,无论是由于数据集大小的增加还是更复杂的模型训练要求,系统都可以相应地扩展,而不会产生瓶颈、停机或用户连接丢失。在人工智能和机器学习工作负载快速发展的时代,这种可扩展性至关重要,需要存储解决方案能够满足当前需求,并能够适应人工智能研究和开发即将取得的进步。

结论

Quantum Myriad 存储集群在管理多样化和高要求的 I/O 操作方面表现出卓越的性能。它是适用于传统业务工作负载和尖端人工智能应用程序的多功能解决方案。由于其高吞吐量和低延迟,Myriad 的功能超越了传统的数据仓库任务,这对于维持平稳操作和高效数据检索至关重要。

除了这些常规用途之外,Myriad 强大的性能特征使其成为满足 AI 工作流程更密集需求的理想选择。在这里,集群在需要快速数据访问和高速处理的场景中表现出色,这对于训练复杂的机器学习模型和运行复杂的神经网络至关重要。快速读写大量共享数据的能力可以提高GPU利用率,并确保AI计算可以无延迟地进行。

对 Myriad 集群的全面测试是了解其在将传统 IT 和业务需求与人工智能研究和开发的高要求相结合的环境中的可扩展性和性能的重要基准。结果凸显了 Myriad 的技术实力及其促进高风险人工智能应用和机器学习项目的潜力,强调了其在广泛的计算任务中的适应性和效率。这些功能证实了 Myriad 作为支持企业满足当前需求和未来技术前景的基础技术的角色。

量子无数产品页面

本报告由量子赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅