首页 企业 Supermicro 4U AMD EPYC GPU 服务器提供 AI 灵活性 (AS-4125GS-TNRT)

Supermicro 4U AMD EPYC GPU 服务器提供 AI 灵活性 (AS-4125GS-TNRT)

by 布赖恩·比勒

Supermicro AS-4125GS-TNRT 是一款 4U 风冷 GPU 服务器,支持两个 AMD EPYC 9004 系列 CPU、PCIe Gen5 和 8 个双宽 GPU。

Supermicro 长期以来一直提供更多形状和尺寸的 GPU 服务器,我们没有时间在本次评测中讨论。 今天,我们正在研究他们相对较新的 4U 风冷 GPU 服务器,该服务器支持两个 AMD EPYC 9004 系列 CPU、PCIe Gen5,以及 12 个双宽或 4125 个单宽附加 GPU 卡的选择。 虽然 Supermicro 还提供这些服务器的基于 Intel 的变体,但基于 AMD 的 AS-100GS-TNRT 系列是此类服务器中唯一支持 NVIDIA H210 和 AMD Instinct MiXNUMX GPU 的服务器。

GPU A+ 服务器 AS-4125GS-TNRT GPU

Supermicro AS-4125GS-TNRT GPU 服务器还有其他一些硬件亮点,如板载 10GbE 网络、带外管理、9 个 FHFL PCIe Gen5 插槽、24 个 2.5 英寸托架,其中 4 个为 NVMe,其余为 SATA/SAS。 还有 2000 个冗余钛金属级 2W 电源。 主板上有一个用于启动的 M.XNUMX NVMe 插槽。

在我们深入探讨这条道路之前,还值得一提的是 Supermicro 还提供了 AS-4125GS-TNRT 服务器配置的另外两种变体。 虽然它们使用相同的主板,但 AS-4125GS-TNRT1 是带有 PCIe 交换机的单插槽配置,最多支持 10 个双宽 GPU 和 8 个 NVMe SSD 托架。 AS -4125GS-TNRT2 是一种双处理器配置,或多或少是相同的,同样带有 PCIe 交换机。

无论配置如何,Supermicro AS-4125GS-TNRT 都具有令人难以置信的灵活性,这要归功于其设计以及选择带有 PCIe 交换机的型号的能力。 这种类型的 GPU 服务器很受欢迎,因为它允许组织从小规模开始并扩展、混合和匹配 GPU 以满足不同的需求,或者做任何他们喜欢的事情。 插槽式 GPU 系统能够更好地聚合 GPU 以处理大型 AI 工作负载,但附加卡系统在工作负载灵活性方面无可匹敌。

Supermicro AS-4125GS-TNRT 配备 AMD 和 NVIDIA GPU

Supermicro AS-4125GS-TNRT,配备 SC23 的 AMD 和 NVIDIA GPU

此外,虽然这对某些人来说可能是一种亵渎,但 Supermicro 附加卡 GPU 服务器甚至可以与 AMD 和 NVIDIA 的卡在同一个盒子中使用! 哎呀,如果您愿意的话,但是很多客户已经发现某些工作负载更喜欢 Instinct,而其他工作负载则喜欢 NVIDIA GPU。 最后,虽然不如塞满 GPU 服务器那么受欢迎,但值得一提的是,这些插槽只是 PCIe 插槽; 可以想象,客户可能更喜欢该装备中的 FPGA、DPU 或其他形式的加速器,这并非没有道理。 同样,灵活性是该设计的核心优势。

出于我们的评测目的,Supermicro AS-4125GS-TNRT 是准系统,可供我们添加 CPU、DRAM、存储,当然还有 GPU。 我们与 Supermicro 合作借用了 4 个 NVIDIA H100 GPU 进行本次评测。

美超微 AS-4125GS-TNRT 规格

规格
中央处理器 双路 SP5 CPU,每个最高 128C / 256T
内存 高达 24 个 256GB 4800MHz ECC DDR5 RDIMM/LRDIMM
(总内存 6TB)
GPU
  • 最多 8 个双宽度或 12 个单宽度 GPU。
  • 支持AMD MI210和NVIDIA H100
扩展插槽 9 个 PCIE 5.0 x16 FHFL 插槽
电源 4 个 2000W 冗余电源
网络 2 个 10GbE
  • 1 个 M.2 NVME
  • 24 个 2.5 英寸热插拔 NVMe/SATA/SAS 驱动器托架(4 个 2.5 英寸 NVMe 专用)
主机板 超级H13DSG-O-CPU
  • IPMI 2.0.
  • 具有专用 LAN 的 KVM
安全性
  • TPM 2.0
  • 硅符合 RoT-NIST 800-193 标准
机箱尺寸 4U

Supermicro AS-4125GS-TNRT 查看配置

我们将 Supermicro 的系统配置为准系统,尽管他们主要将其作为配置系统出售。 当它到达实验室时,我们做的第一件事就是在其中安装一对 AMD EPYC 9374F 32c 64t CPU。 之所以选择它们,是因为它们具有高时钟速度和令人尊敬的多核性能。

对于加速器,我们有相当多的选择,从旧的 Intel Phi 协处理器到最新的 H100 PCIe 卡再到高端 RTX 6000 ada 工作站 GPU。 我们的目标是在原始计算能力与效率和多功能性之间取得平衡。 最终,我们决定从四个 NVIDIA RTX A6000 GPU 开始,然后转向四个 NVIDIA H100 PCIe 卡进行初始测试。 这种组合展示了 Supermicro 平台的灵活性和 NVIDIA 加速卡。

RTX A6000 主要针对图形密集型工作负载的性能而设计,凭借其 Ampere 架构,在 AI 和 HPC 应用程序中也表现出色。 它提供 48GB GDDR6 内存,非常适合处理大型数据集和复杂的模拟。 其 10,752 个 CUDA 和 336 个 Tensor 核心可实现加速计算,这对于我们的 AI 和深度学习测试至关重要。

另一方面,NVIDIA H100 PCIe 卡是 Hopper 架构系列中最新推出的卡,主要针对 AI 工作负载而设计。 每张卡均配备令人印象深刻的 80 亿个晶体管、80GB HBM3 内存以及专为 GPT-4 等 AI 模型量身定制的突破性 Transformer 引擎。 H100 的第四代 Tensor Core 和 DPX 指令显着增强了 AI 推理和训练任务。

GPU A+服务器 AS-4125GS-TNRT 前角GPU

考虑到这些高端组件会产生大量功耗和热量,将这些 GPU 集成到我们的 Supermicro 准系统中,我们专注于确保最佳的热管理和功率分配。 Supermicro 机箱虽然没有正式支持这种配置,但事实证明其用途广泛,足以适应我们的设置。 为了控制 A6000 的散热情况,由于采用了鼠笼式风扇设计,我们必须将它们分开一个卡宽度,但 H100 可以使用直通式被动散热片进行封装。

我们的基准测试套件包括 HPC 和 AI 特定用例的组合。 这些范围从传统的基准测试工作负载到使用卷积神经网络模型的人工智能训练和推理任务。 我们的目标是将这些加速器推向极限,评估它们的原始性能和效率、可扩展性以及与 Supermicro A+ 服务器集成的便捷性。

Supermicro AS-4125GS-TNRT GPU 测试

当我们在实验室中研究 CNN 基础模型时使用 NVIDIA 的旗舰 GPU,我们首先在一对较旧但功能强大的 GPU 上进行一些工作站级训练 RTX8000 图形处理器。

在我们的 AI 性能分析过程中,我们观察到功能取得了显着且符合预期的进展,从 NVIDIA RTX 8000 转移到四个 RTX A6000 GPU,最后转移到四个 NVIDIA H100 PCIe 卡。 这一进展展示了这些加速器的原始能力,以及过去几年随着人工智能工作负载越来越受到关注,NVIDIA 加速器的演变。

从 RTX 8000 开始,我们注意到了不错的性能水平。 通过此设置,我们在 6.36GB 图像数据集上的 AI 模型训练每个周期大约需要 45 分钟。 然而,RTX 8000 在批量大小和它可以处理的任务复杂性方面的局限性是显而易见的。 我们受限于较小的批量大小,并且受限于我们可以有效训练的神经网络模型的复杂性。

转向四个 RTX A6000 GPU 标志着性能的显着飞跃。 A6000 卓越的内存带宽和更大的 GDDR6 内存使我们能够将批量大小增加四倍,同时保持相同的历元持续时间和模型复杂性。 这一改进改进了训练过程,使我们能够在不延长训练时间的情况下试验更复杂的模型。

然而,最引人注目的进步是四块 NVIDIA H100 PCIe 卡的推出。 利用 Hopper 架构增强的人工智能功能,这些卡使我们能够将批量大小再次增加一倍。 更令人印象深刻的是,我们可以显着增加人工智能模型的复杂性,而无需对纪元持续时间进行任何显着变化。 此功能证明了 H100 先进的 AI 特定功能,例如 Transformer 引擎和第四代 Tensor Core,这些功能针对高效处理复杂的 AI 操作进行了优化。

在这些测试中,6.36GB 图像数据集和模型参数作为一致的基准,使我们能够直接比较不同 GPU 配置的性能。 从 RTX 8000 到 A6000,再到 H100,突显了原始处理能力和 GPU 在不影响速度或效率的情况下处理更大、更复杂的 AI 工作负载的能力的改进。 这使得这些 GPU 特别适合尖端人工智能研究和大规模深度学习应用。

我们测试中使用的 Supermicro 服务器具有与 CPU 的直接 PCIe 连接,无需 PCIe 交换机。 这种直接连接可确保每个 GPU 都有一条通往 CPU 的专用路径,从而促进快速高效的数据传输。 这种架构对于 AI 和 HPC 中的某些工作负载至关重要,可以最大限度地减少延迟并最大限度地提高带宽利用率,特别是在处理高吞吐量任务(例如 AI 模型训练或复杂的 VDI 环境)(且所有工作都位于服务器本地)时特别有用。

总结

Supermicro GPU A+ 服务器 AS-4125GS-TNRT 服务器的可扩展性和灵活性是这里的杀手级功能。 对于需要适应不断变化的工作负载需求的客户尤其有利,无论是在 AI、VDI 还是其他高性能任务中。 从适度的配置开始,用户可以有效地处理入门级 AI 或 VDI 任务,为较小的工作负载或刚刚开始涉足 AI 和虚拟桌面基础设施的人员提供经济高效的解决方案。 此初始设置提供了坚实且可扩展的基础,允许用户参与基本但重要的 AI 和 VDI 应用程序。

GPU A+ 服务器 AS-4125GS-TNRT 正面

此外,虽然我们知道很多企业希望利用插槽式 H100 GPU,但这些平台的等待时间过长,许多消息来源告诉我们等待时间接近一年。 供应链物流凸显了该服务器的伟大之处,它可以处理任何事情。 L40S GPU“现已”上市,因此客户至少可以通过此组合更快地移动他们的 AI 工作负载。 随着需求的变化,客户可以轻松更换卡。 这确保了 Supermicro GPU A+ 服务器 AS-4125GS-TNRT 服务器不仅能够满足当前需求,而且能够面向未来,满足不断发展的技术环境。

Supermicro 4U GPU 服务器产品页面

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅