Supermicro X13 SuperBlade 机箱和 GPU 刀片是适应性强、稳健的选择,特别是对于中型 AI 任务。
Supermicro 一直是刀片服务器技术的先驱,其 SuperBlade 系统证明了这一点。 Supermicro X13 SuperBlade 机箱和刀片的推出为支持 GPU 的刀片技术以及最新 Emerald Rapids CPU 和 NVIDIA H100 GPU 的集成开启了新的篇章。这些进步带来了卓越的处理能力和效率,使 X13 成为各种高端应用的理想选择。
设计和规格
Supermicro X13 SuperBlade机箱保留了人们熟悉的8U机箱设计,以其高密度和灵活性而闻名。每个机箱支持多达 20 个刀片,最新产品通过集成 Emerald Rapids CPU 和 NVIDIA H100 GPU 显着增强。这种强大的组合有望提供前所未有的计算能力。此外,该机箱还具有200G InfiniBand和25G以太网通信,确保高速数据传输和网络效率。
热门用例:
- 数据分析:凭借 Emerald Rapids CPU 的先进处理能力和 NVIDIA H100 GPU 的加速计算能力,X13 SuperBlade 非常适合要求苛刻的数据分析任务。这些任务包括实时数据处理和广泛的数据挖掘操作,这在当今数据驱动的世界中变得越来越重要。
- 人工智能和机器学习:X13 SuperBlades 为人工智能和机器学习模型提供必要的动力,特别是需要大量计算资源的深度学习算法。
- 高性能计算:科学模拟、医学研究和工程中的高级计算任务将大大受益于 X13 的增强性能,使其成为高性能计算应用的首选。
- 云计算:刀片式服务器密度和性能的提高使其成为云服务提供商的理想选择。它们可以处理许多基于云的应用程序和服务,包括那些需要密集虚拟化和容器化的应用程序和服务。
- 网络和通信:X200 配备 25G InfiniBand 和 13G 以太网通信,在高带宽、低延迟应用中表现出色,适合要求苛刻的网络和通信任务。由于其外部网络,SuperBlade 可以充当集线器,为同一机架或数据中心中的传统非刀片服务器提供 InfiniBand 和以太网通信。
在 Supermicro 提供的测试设备中,我们总共有五个叶片。其中四台配备了单处理器并具有 PCIe 加速器的能力,在我们的例子中,是四台 NVIDIA H100 和一台双处理器刀片。我们将继续对计算刀片进行后续审查,这次审查的长度使其包含的内容有点过多。
元件 | 描述 |
---|---|
扩展模组 | 1x SBE-820H2-630 |
PSW | 6x PWS-3K01A-BR |
风扇 | 2x PWS-DF006-2F |
BBP | 1x AOC-MB-BBP01-P |
CMM | MBM-CMM-6 |
IB开关 | 1x SBM-IBS-H4020 |
EN 开关 | 2x SBM-25G-200 |
刀片配置 |
|
Supermicro X13 GPU SuperBlades
GPU 刀片乍一看掩盖了它们的功能,前面有一个进气口,我们的双处理器刀片有一些 2.5 英寸 NVMe 托架代替 GPU。
背面有大量令人眼花缭乱的引脚,用于将刀片连接到机箱,承载所有电源和数据。
从内部看,我们可以看到 GPU 刀片中的 m.2 启动 SSD。
从上面,我们可以看到空气阻挡导轨。请注意 GPU 刀片和双 CPU 刀片之间的区别。 GPU 刀片主板与双 CPU 相同,但只是背面 I/O 一半。
在前面,我们可以开始看到不同的实现。 GPU刀片具有PCIe转接卡,而CPU刀片具有U.2 PCIe转接卡,并且可以在其PCIe插槽中容纳各种组件。该机箱旨在通过首先将新鲜空气吸入 GPU 来实现无源 GPU 的最佳冷却。
继续,从机箱背面开始,我们可以看到 PSU 和网络连接。顶部全宽交换机用于 200Gbit NVIDIA Quantum InfiniBand。下面两个交换机中较大的一个是 25G 以太网,中间的小模块用于机箱管理模块。
Supermicro X13 SuperBlade 机箱管理和部署
将机箱管理模块 (CMM) 集成到美超微的 SuperBlade X13 机箱中可提供一系列优势,这些优势不仅限于单个刀片,还涵盖整个机架,从而提高了数据中心运营的整体效率和可管理性。 CMM 作为集中控制点,简化了 SuperBlade X13 系统的管理。
用于所有机箱功能的单一管理平台对于刀片机箱等集成平台至关重要。尽管对单个刀片进行电源循环的能力对某些人来说可能很重要,但许多其他功能在日常管理例程中发挥着重要作用。
Supermicro 的 CMM 提供了一个中央着陆点来监控机箱、查看已安装的刀片以及管理安装在机箱后部的集成交换机。这种带外管理还会引入设备 IP 地址,因此从该中心位置,您可以轻松跳到每个连接的设备。
每个已安装刀片的管理与独立 Supermicro 服务器的管理类似。 BIOS 更新等活动是通过其 BMC 执行的,就像在 之前的实验。这种集中式方法可以在所有刀片上实现快速部署和一致更新,确保每个组件都使用最新的固件和设置运行。这种一致性对于维持系统稳定性和性能至关重要,特别是在密集计算环境中,配置差异可能导致效率显着低下。
CMM 在管理 SuperBlade X13 方面的作用扩展到监视和控制整个机架的运行状况。它监控功耗、冷却、网络和系统运行状况,提供机架性能的整体视图。这种监视对于在潜在问题升级之前识别和解决问题、最大限度地减少停机时间以及保持最佳运营效率至关重要。
CMM 除了管理服务器刀片之外,还通过相同的单一接口处理网络管理。这使得用户可以轻松访问和查看两个连接交换机的交换机管理屏幕,并显示其各自的 IP 地址。 CMM 还可以与相邻系统通信以进行更大规模的部署,从而提供全面的管理包。
从本质上讲,CMM 将 SuperBlade X13 的管理从一系列单独的任务转变为一个有凝聚力的简化流程。它类似于拥有一个指挥中心,可以简化每个刀片的管理并增强整个机架的整体性能和可靠性。这种刀片和机架管理方法对硬件管理团队很有帮助,特别是在可扩展性、可靠性和有效利用时间至关重要的数据中心。
Supermicro SuperBlade SBI-411E-5G – NVIDIA H100 性能
在高性能计算领域,配备 NVIDIA H411 的 SuperBlade SBI-5E-100G 是一款用于分布式训练和单刀片推理的多功能且强大的工具。当计算需求大幅波动时,例如在管理不同工作负载的数据中心中,这种灵活性尤其明显。
分布式训练场景
SuperBlade H100 节点在分布式训练方面表现出色,这对于复杂的 AI 模型至关重要。想象一个场景,在庞大的数据集上训练大规模神经网络模型。该模型的训练分布在多个刀片上,每个刀片都利用 H100 先进 GPU 的强大功能。这种分布加速了训练过程,并允许在单台机器上处理更大的模型和不切实际的数据集。
200G InfiniBand 在这里发挥着关键作用。其高带宽、低延迟通信对于分布式训练至关重要,而刀片之间快速高效的数据交换至关重要。这种连接确保数据和学习参数在所有刀片上一致且快速地同步,从而最大限度地减少大容量数据处理中经常遇到的瓶颈。
实验室分布式培训
分布式训练彻底改变了我们处理大规模机器学习和深度学习任务的方式。数据为王,高效处理海量训练数据的能力一直是瓶颈。这就是开源库和强大的硬件(例如具有四个 PCIe GPU 的 Supermicro SuperBlade X13)成为游戏规则改变者的地方,特别是在通过高速 200G InfiniBand 网络连接时。
TensorFlow 和 PyTorch 等开源库已成为机器学习社区的主要内容,并得到了每个制造商的支持和验证。它们为开发和扩展机器学习模型提供了强大、灵活且不断发展的框架。训练复杂模型(例如自然语言处理或计算机视觉中使用的模型)时,计算要求可能会非常惊人。这就是 SuperBlade X13 发挥作用的地方。
SuperBlade X13 平台以其高密度计算能力而闻名,使其成为 HPC 环境的绝佳选择。 SuperBlade X411 采用配备 H5 PCIe GPU 的双宽半高 SBI-100E-13G 刀片,每个机箱支持多达 10 个风冷 GPU,以及多达 20 个液冷 GPU,可处理巨大的并行处理任务。重要的是,刀片实际上可以随时重新配置,从而随着企业人工智能工作负载的变化而变得极其灵活。
将InfiniBand引入机箱,具有极低的延迟和高吞吐量,有助于数据和模型参数在节点之间不断穿梭。这种高速网络显着减少了数据传输时间,这通常是分布式系统的瓶颈,特别是在处理大规模数据集和复杂模型架构时。
在此设置上集成开源库以进行分布式培训涉及几个关键步骤。首先,我们必须选择优化的容器和库以充分利用 GPU 功能。这包括使用这些库的支持 CUDA 的版本,确保它们可以直接利用 GPU 的处理能力。其次,InfiniBand 必须与 NCCL(NVIDIA Collective Communications Library)结合使用,为集体多 GPU/多节点通信提供优化的通信例程。
实际上,在该平台上设置分布式训练任务时,每个节点(在本例中为每个 SuperBlade)运行模型的一部分。得益于 InfiniBand 网络的速度和低延迟,模型参数在节点之间实时同步。这种同步对于模型的收敛和准确性至关重要。
TensorRT 和法学硕士
NVIDIA 的 TensorRT 大语言模型 (LLM) 代表了人工智能和机器学习领域的重大进步。 TensorRT LLM 专为提高效率和速度而设计,是刀片服务器系统生态系统中的关键组件,以其在处理复杂人工智能任务方面的卓越性能而闻名。其设计满足技术专业人员和 IT 决策者的需求,提供强大的解决方案来处理现代数据中心苛刻的计算要求。
NVIDIA TensorRT LLM 的技术框架旨在充分发挥人工智能和深度学习的潜力。它旨在优化神经网络推理,使其成为高性能计算环境的理想选择。 TensorRT LLM 能够将经过训练的模型转换为优化的运行时引擎,从而显着减少延迟并提高吞吐量,从而实现了显着的效率。此功能主要有利于刀片服务器系统,其中快速数据处理和最短响应时间至关重要。此外,它与 NVIDIA 广泛的 GPU 的兼容性增强了其多功能性,使其成为各种 IT 设置中的可扩展解决方案。
NVIDIA TensorRT LLM 的突出特点之一是其分布式训练能力。在大规模机器学习模型成为常态的环境中,这一点尤其重要。分布式训练允许 TensorRT LLM 利用多个系统,有效地分配计算负载。这可以显着减少复杂模型的训练时间,而不会影响准确性或性能。跨不同节点执行分布式训练的能力使 TensorRT LLM 能够高度适应大型组织和研究机构中常见的大型 IT 基础设施。此外,这种分布式方法有助于处理海量数据集,这是高级人工智能项目中的常见挑战,从而实现更强大和更复杂的人工智能模型开发。
TensorRT LLM 的优化和高性能推理功能非常适合刀片服务器的密集、互连特性。通过利用 TensorRT LLM,Blade 系统可以更有效地执行复杂的 AI 模型,从而缩短处理时间并减少延迟。这在实时数据分析和决策至关重要的场景中尤其重要,例如财务建模或医疗诊断。
将 Supermicro SuperBlade 与 TensotRT LLM 跨多个系统的分布式培训功能和适应性相结合,可以提高技术专业人员和 IT 决策者的资产价值。通过利用这种强大的组合,组织可以有效地处理大型人工智能项目,确保更快的处理、减少延迟和可扩展的人工智能部署。为了实现这一点,我们在机箱内使用 Quantum InfiniBand 网络。
使用 MLPerf 进行单刀片推理性能基准测试
GPU 刀片中每个节点 1 个 CPU 到 1 个 GPU 的架构为 AI 和数据分析工作负载提供了潜在的优势,特别是对于单刀片推理任务。此设计提供均衡的处理能力比例,从而实现 GPU 功能的最佳利用。
为了测试单刀片推理性能,我们运行了 MLPerf 3.1 推理(离线和服务器)。 BERT(来自 Transformers 的双向编码器表示)是一种基于 Transformer 的模型,主要用于自然语言处理任务,例如问答、语言理解和句子分类。 ResNet-50 是一种广泛用于图像分类任务的卷积神经网络 (CNN) 模型。它是具有 50 层的 ResNet 模型的变体,以其深层架构和高效性能而闻名。
单节点推理 | |
---|---|
ResNet-50 – 离线: | 46,326.6 |
ResNet-50 – 服务器: | 47,717.4 |
BERT K99 – 离线: | 3,702.4 |
BERT K99 – 服务器: | 4,564.11 |
- 离线模式:此模式测量所有数据可同时处理时的系统性能。它类似于批处理,系统在单个批次中处理大型数据集。对于延迟不是主要问题但吞吐量和效率才是主要问题的场景,此模式至关重要。
- 服务器模式:相反,服务器模式在模拟真实世界服务器环境的场景中评估系统的性能,其中请求一次传入一个。此模式对延迟敏感,衡量系统响应每个请求的速度。这对于需要立即响应的实时应用程序至关重要,例如在 Web 服务器或交互式应用程序中。
在推理任务中,GPU 主要负责繁重的计算工作。通过与专用 CPU 配对,系统可确保 GPU 能够高效运行,而不会受到共享 CPU 或平台资源的瓶颈。这对于实时数据处理场景(例如实时视频分析或即时语言翻译)至关重要。
有趣的是,我们观察到这种 1:1 的 CPU 与 GPU 比率可以提高性能的可预测性。每个节点独立运行,确保一致的处理时间并减少推理任务的可变性。在响应时间至关重要的环境中,这种可预测性至关重要。
总体而言,SuperBlade H100 中的一对一 GPU 配置最大限度地提高了两个组件的效率。这确保每个节点为推理任务提供最佳性能,每个节点运行独立的模型和流程。该架构增强了系统高效可靠地处理实时数据处理需求的能力。
自适应工作负载管理
考虑到所有信息后,很明显 SuperBlade 系统具有很强的适应性。在高峰时段,当推理需求较高时,可以动态分配更多支持 GPU 的刀片来处理这些任务,确保高效处理实时请求。相反,在非高峰时段,这些资源可以转移到微调人工智能模型或处理时间不太敏感的任务上。这种灵活性可以实现资源的最佳利用,确保 SuperBlade 系统在管理不同的计算负载时稳健且高效。
200G 的好处 NVIDIA 量子 这些场景中的 InfiniBand
SuperBlade H200 系统中包含 100G InfiniBand 通过提供高速数据传输的骨干来增强这些场景。分布式训练可以实现刀片间数据的更快同步,这对于保持训练过程的一致性和速度至关重要。单刀片推理确保大型数据集可以快速移动到刀片进行处理,从而减少延迟并提高吞吐量。
量子 InfiniBand 有何进展?
InfiniBand 是高性能计算的基石,是一种高速互连技术,最初是为了满足超级计算集群内不断增长的数据传输和通信需求而开发的。这种高度专业化的网络解决方案经过多年的发展,提供极低的延迟和高带宽,使其成为连接 HPC 环境中的服务器、存储系统和其他组件的理想选择。
我们发货的 Supermicro X13 刀片配备了 200G InfiniBand 网络和 25G 以太网。这在处理分布式训练和其他延迟和数据密集型任务时特别有用。经过上述几个高度可变(且耗时)的训练周期后,我们确定需要不同的指标来提供隐藏在刀片机箱无数引脚中的 InfiniBand 网络的真实测试指标。由于运行间微调的极端可变性,尝试量化使用此类多节点系统执行这些任务的影响或缺乏影响是不负责任的。结果出人意料。
输入 NVIDIA 集群套件。 NVIDIA ClusterKit 是一个工具包,旨在测试多节点 GPU 集群的全部潜力,为 AI 和 HPC 从业者提供一套有趣的工具来衡量其工作负载的性能、效率和可扩展性。
我们重点关注 ClusterKit 中的两个关键工具:
- 带宽测试:带宽是 HPC 中的一个关键指标,反映了给定时间内可以通过网络传输的数据量。我们利用 NVIDIA ClusterKit 来测量 Supermicro SuperBlade 设置中节点之间的双向(双工)带宽。双工测量至关重要,因为它们反映了数据在两个方向同时流动的现实场景。
- 延迟测试:延迟或消息从网络中的一个点传输到另一个点所需的时间是另一个关键的性能指标。低延迟对于紧密耦合的 HPC 应用程序非常重要。 NVIDIA ClusterKit 能够准确测量双工延迟,为了解 SuperBlades 上 InfiniBand 网络的响应能力提供了宝贵的见解。
使用 ClusterKit 的 SuperBlade InfiniBand 和 H100 GPU 基准测试结果
进入本节,了解每个节点都由唯一标签(例如 smci-a7、smci-a1 等)标识非常重要。 -1、-3、-5和-7的表示是主机名,它反映了刀片在机箱中的物理位置。
第一个测试的重点是测量集群中各个节点之间的双向带宽。测试涉及消息大小8,388,608字节,迭代16次。
GPU 直接测试
首先,我们来看看 GPU Direct 测试。该报告报告了刀片平台的绝对最大吞吐量,利用了撰写本文时可用的所有最新、最好的 SDK 和工具包。值得注意的是,测试报告的是双工带宽,这意味着带宽是两个方向的总带宽。单一方向大约是一半。关键要点是带宽的限制因素是 200G InfiniBand,但正如我们稍后将看到的,这并没有太多问题。
下面的矩阵显示了使用 GPUDirect 的双向带宽。
带宽矩阵 MB/s
等级/节点 | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.0 | 49,221.6 | 49,193.6 | 49,223.6 |
1 (smci-a1) | 49,221.6 | 0.0 | 49,219.5 | 49,142.7 |
2 (smci-a3) | 49,193.6 | 49,219.5 | 0.0 | 49,219.7 |
3 (smci-a5) | 49,223.6 | 49,142.7 | 49,219.7 | 0.0 |
延迟 uSec
接下来是显着的延迟测试结果,以微秒为单位。 GPU Direct 测试与主机本地有多个 GPU 一样好。
秩 | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.00 | 1.38 | 1.24 | 1.38 |
1 (smci-a1) | 1.38 | 0.00 | 1.25 | 1.36 |
2 (smci-a3) | 1.24 | 1.25 | 0.00 | 1.32 |
3 (smci-a5) | 1.38 | 1.36 | 1.32 | 0.00 |
GPU 邻居测试
继续进行 GPU 邻居测试,同样,带宽以双工形式报告,这意味着带宽是两个方向的总带宽。单一方向大约是一半。下面的矩阵显示了双向带宽 H100卡之间 在四个节点中的每一个中。这没有使用 GPUDirect 库的加速。 1、3、5、7代表的是主机名,反映了刀片在机箱中的物理位置。
GPU 邻居带宽 (MB/s)
“GPU 相邻带宽”测试测量同一系统或节点内相邻 GPU 之间的数据传输速率。该指标对于需要在邻近 GPU 之间频繁交换数据的应用程序至关重要,例如多 GPU 并行处理任务。带宽越高,数据传输速度越快,从而可能提高 GPU 密集型应用程序的性能。
GPU | 带宽(MB/秒) |
---|---|
smci-a7 与 smci-a1 | 30,653.9 |
smci-a3 与 smci-a5 | 30,866.7 |
一般 | 30,760.3 |
GPU 显存带宽 (MB/s)
“GPU 内存带宽”测试评估 GPU 本身从 GPU 内存读取或存储数据的速率。此带宽是一个关键的性能方面,特别是对于涉及大型数据集或需要高吞吐量来执行图像处理、模拟或深度学习等任务的应用程序。更高的内存带宽表明 GPU 更能有效地处理大量数据。这项测试向我们表明,X13 Blades 在支持 H100 GPU 方面没有问题。
GPU | 带宽 |
---|---|
smci-a7-GPU0 | 55,546.3 |
smci-a1-GPU0 | 55,544.9 |
smci-a3-GPU0 | 55,525.5 |
smci-a5-GPU0 | 55,549.8 |
一般 | 55,541.6 |
GPU 到 GPU 带宽 (MB/s)
此测试测量不同 GPU 之间的双向带宽。这对于涉及分布在多个 GPU 上的复杂计算的任务至关重要,其中 GPU 之间的数据传输速度会显着影响整体处理时间。高 GPU 到 GPU 带宽有利于加速多 GPU 工作流程和并行计算任务。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7-GPU0 | 0.0 | 30,719.8 | 30,817.7 | 30,823.8 |
smci-a1-GPU0 | 30,719.8 | 0.0 | 30,710.0 | 30,670.9 |
smci-a3-GPU0 | 30,817.7 | 30,710.0 | 0.0 | 30,835.1 |
smci-a5-GPU0 | 30,823.8 | 30,670.9 | 30,835.1 | 0.0 |
一般 | 30,762.9 |
GPU0 到远程主机带宽 (MB/s)
“GPU0 到远程主机带宽”测试量化了主 GPU (GPU0) 和远程主机系统之间的数据传输速率。这在分布式计算环境中至关重要,因为数据需要在主 GPU 和网络系统的其他部分之间频繁移动,从而影响分布式深度学习训练或远程服务器上的数据分析等任务。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.0 | 30,804.3 | 30,753.5 | 30,768.1 |
smci-a1 | 30,804.3 | 0.0 | 30,732.9 | 30,679.7 |
smci-a3 | 30,753.5 | 30,732.9 | 0.0 | 30,970.8 |
smci-a5 | 30,768.1 | 30,679.7 | 30,970.8 | 0.0 |
GPU 邻居延迟(微秒)
“GPU 相邻延迟”测试测量少量数据从一个 GPU 传输到相邻 GPU 所需的时间。较低的延迟是可取的,特别是在需要实时数据处理或 GPU 之间高速通信的应用程序中,例如实时渲染或复杂的科学模拟。
GPU | 潜伏 |
---|---|
smci-a7 与 smci-a1 | 11.03 |
smci-a3 与 smci-a5 | 11.01 |
GPU 到远程主机的延迟(微秒)
“GPU0 到远程主机延迟”测试测量主 GPU (GPU0) 和远程主机系统之间的数据通信延迟。这种延迟是分布式计算环境中的一个关键因素,影响依赖 GPU 和远程系统之间交互的应用程序的响应能力和效率,例如基于云的游戏或远程数据处理。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.00 | 3.35 | 3.36 | 3.33 |
smci-a1 | 3.35 | 0.00 | 3.41 | 3.37 |
smci-a3 | 3.36 | 3.41 | 0.00 | 3.37 |
smci-a5 | 3.33 | 3.37 | 3.37 | 0.00 |
一般 | 3.37 |
NVIDIA ClusterKit 测试揭示了 Supermicro SuperBlades 上 InfiniBand 网络令人印象深刻的性能指标。双工带宽测试显示出较高的数据传输速率,表明 InfiniBand 功能的有效利用。同样,延迟测试显示了最小的延迟,强调了网络适合要求苛刻的 HPC 任务。这意味着该平台的性能与独立系统相当,并提供更高密度的计算和网络,所有这些都在统一的解决方案中。
独立GPU服务器测试
接下来,我们将 4 个 NVIDIA H100 移动到一个 Supermicro 4U AMD EPYC GPU 服务器 可以同时支持全部 4 个,我们希望测试 GPU 之间的性能和延迟。重要的是要明白,我们只是想了解该服务器中卡的性能概况,而不进行跨刀片通信。虽然这款 4U 服务器在支持的卡方面非常灵活,但它不具备 Supermicro X13 SuperBlade 机箱提供的极端可组合性。当然,Supermicro 一如既往地为每种应用提供解决方案,包括液冷插槽 GPU。
首先,我们来看看一个平台中 4 个 GPU 的点对点带宽。
写入带宽 (GB/s) – 单向
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 54.29 | 39.50 | 40.51 |
GPU1 | 54.60 | 0.00 | 40.55 | 40.22 |
GPU2 | 40.60 | 38.73 | 0.00 | 54.03 |
GPU3 | 40.99 | 40.33 | 53.79 | 0.00 |
读取带宽 (GB/s) – 单向
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 53.17 | 39.23 | 35.69 |
GPU1 | 53.70 | 0.00 | 36.96 | 41.02 |
GPU2 | 36.28 | 39.88 | 0.00 | 53.32 |
GPU3 | 40.40 | 37.08 | 53.68 | 0.00 |
此处需要注意的是,GPU0 和 GPU1 GPU 位于一个 NUMA 节点上,GPU2 和 GPU3 位于另一个 NUMA 节点上。您可以在这里清楚地看到跨 NUMA 节点对性能的影响。
复制引擎 (CE) – 写入延迟(us)
最后,测量 GPU 之间的延迟。
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 1.67 | 1.64 | 1.64 |
GPU1 | 1.57 | 0.00 | 1.61 | 1.61 |
GPU2 | 1.66 | 1.69 | 0.00 | 1.65 |
GPU3 | 1.65 | 1.66 | 1.61 | 0.00 |
正如预期的那样,将所有 GPU 移至单个平台后,我们的带宽是 Blade 2G IB 连接的 200 倍。这里的带宽可能是应用程序的一个考虑因素,但是当谈论延迟数字时,以微秒为单位,从平均 1.6us GPU 到 GPU(全部集成在一个机箱中)到仅当刀片服务器必须遍历 PCIe 总线、IB 切换并返回 GPU 时,只需 1.5us 的时间就非常了不起。但那就是 而不去 完整的故事。
总结
Supermicro X13 SuperBlade 配备 Emerald Rapids CPU 和 NVIDIA H100 GPU,是刀片服务领域的一次受欢迎的演变。其功能涵盖各种计算密集型任务,使其成为从数据分析到人工智能和云计算等行业的多功能且强大的解决方案。随着对高性能计算的需求不断增长,X13 已做好迎接这些挑战的准备,体现了 Supermicro 对服务器技术创新和卓越的承诺。
从测试中考虑的所有因素,我们对这个平台特别感兴趣,因为它从整体角度来看具有独特性和高度适应性。将平台的应用置于情境中非常重要。
想象一下在研究部门的场景,您的机架中有 Supermicro X13 Blade 系统,可以发挥所有高计算能力。您可以使用平台内置的集中管理基础设施来控制刀片和平台本身,还可以作为控制、联网和管理其他设备的集线器。将足够强大的存储服务器嵌套连接到 SuperBlade 来为需要数据的 GPU 提供数据,您可以以线速将所有位摄取到模型中。在这个虚构的场景中,我们可以让不同的研究人员每天使用我们的所有 GPU,然后当时间到来时,通过 InfiniBand 连接所有刀片并让它们一起工作。
CPU 与 GPU 一对一关系的带宽测试还表明,在满载的刀片机箱的情况下,刀片系统的性能可以优于带有附加卡 GPU 的单个服务器。通过正确设计的分布式训练工作流程,您可以看到性能本质上与在单个节点中使用所有 GPU 一样好,甚至更好,但现在您获得的平台可以轻松承担双重任务,从而将前期 GPU 成本减半。得益于最新 CPU 的支持,一旦实施,我们期待从 HDR InfiniBand 迁移到 NDR,因为这将使 SuperBlade 的性能超越单个 GPU 服务器平台所能获得的性能。
对于那些不断变化或经常变化的人工智能需求的人来说,Supermicro X13 SuperBlade 机箱和 GPU 刀片是一个适应性强、稳健的选择。通过长时间使用该平台,我们遇到了 DRAM、CPU 和 GPU 更改的需求,或者用人工智能领域的说法,“改天”,所有这些都可以由该平台轻松处理。总的来说,该平台是可靠的,是人工智能领域一个有趣且强大的设备,没有太多其他要求。考虑到竞争系统的价格点,如果您可以利用刀片的灵活性,这几乎是无与伦比的。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅