首页 企业 戴尔 PowerEdge XE9640 液冷 GPU 服务器深入探究

戴尔 PowerEdge XE9640 液冷 GPU 服务器深入探究

by 哈罗德弗里茨

Dell PowerEdge XE9640 是一款 4x GPU 加速的机架式服务器,借助液体冷却,能够以节能的方式提供 AI 电源。 XE9640 于期间发布 SC22 以及 XE8640 和我们最喜欢的产品之一,8 路 XE9680 GPU 服务器。 今天,XE9640 已全面上市,我们正在深入研究底层硬件。

Dell PowerEdge XE9640 是一款 4x GPU 加速的机架式服务器,借助液体冷却,能够以节能的方式提供 AI 电源。 XE9640 于期间发布 SC22 以及 XE8640 和我们最喜欢的产品之一,8 路 XE9680 GPU 服务器。 今天,XE9640 已全面上市,我们正在深入研究底层硬件。

戴尔 PowerEdge XE9640

戴尔 PowerEdge XE9640

戴尔 GPU 加速服务器系列

PowerEdge XE 系列服务器专为需要性能和可靠性的复杂 AI 和 HPC 工作负载而构建。 这些服务器被设计为高性能、洞察驱动且智能。 如今,XE 服务器系列包括 XE9680 (我们有没有提到它是 Jordan 的最爱?)、XE9640、XE8640 和 XE8545。 所有这些服务器之间的共同点是设计支持各种人工智能计划,并提供对客户有意义的冷却选项。

产品

目的 优势 使用案例
XE9680 旨在通过 AI 加速增强洞察力,旨在实现最佳性能和最快的价值实现时间 借助 8 个 NVIDIA H100 或 A100 Tensor Core SXM GPU 发挥 AI 和 HPC 的极致性能 大型语言模型
智能风冷操作(最高 35C)可最大限度地将数据转化为结果 自然语言处理
智能风冷操作(最高 35C)可最大限度地将数据转化为结果 大型推荐引擎培训
建模与仿真
数字孪生与制造
XE9640 专为推动高密度 2U 智能液冷服务器中的 AI 计划而设计 借助 4 个 NVIDIA H100 Tensor Core GPU 或 4 个英特尔数据中心 Max OAM GPU 推动 AI 取得更大成果 自然语言处理
智能液冷 CPU 和 GPU 最大限度地提高性能 大型推荐引擎培训
通过优化电源利用效率降低 TCO 建模与仿真
人工智能、ML/DL 对象识别培训
XE8640 以卓越的性能驱动 AI、HPC 和分析工作负载 使用 4 个 NVIDIA H100 GPU 针对各种应用自动分析见解 中等数据集语言模型
风冷运行(最高 35C)以提高电源效率 自然语言处理
通过智能扩展选项扩大运营规模 建模与仿真
人工智能、ML/DL 训练和推理、图像识别
XE8545 主流AI和图形应用性能 使用 4 个 NVIDIA A100 GPU 提升训练和推理性能 建模和仿真,包括地震分析
风冷运行(最高 35C)可实现高效运行 人工智能、ML/DL 训练和推理、图像识别和聊天机器人
通过平衡的性能功耗比解决方案降低总体拥有成本

Dell PowerEdge XE9640 – GPU 多样性和液体冷却

这款 PowerEdge XE9640 得益于与合作伙伴 CoolIT 的深入合作,为 GPU 和 CPU 提供直接液体冷却 (DLC)。 该服务器零售了一些风扇,以确保 DRAM、存储和 PCIe 扩展卡获得足够的气流和冷却。 也就是说,这些风扇不需要以最大转速运行,从而节省大量电力。

Dell PowerEdge XE9640 NVIDIA H100 托盘

Dell PowerEdge XE9640 – NVIDIA GPU 托盘

PowerEdge XE9640 带来了 GPU 多样性,提供 4x 英伟达 NVLink 互联 H100 SXM5 GPU 700W 模块或 4x 英特尔 XeLink 互连英特尔数据中心 GPU Max 1550 600W 开放计算平台 (OCP) 加速器模块 (OAM)。

得益于 NVIDIA NVLink 和 Intel Xelink 等技术,这些 GPU 可以无缝通信,有效地池化内存和内核。 这对于处理内存一致性工作负载(例如大型语言模型(LLM))特别有益。 这种多功能性使其适用于各种人工智能工作负载。 当然,最明显的问题是“AMD Instinct 怎么样?” 戴尔不断评估额外的 GPU 支持,但在发布时并未在此服务器中提供 AMD 解决方案。

Dell PowerEdge XE9640 Intel GPU 托盘

Dell PowerEdge XE9640 – 英特尔 GPU 托盘

这种 GPU 多样性使用户能够满足生成式 AI、工业仿真建模和尖端科学研究不断增长的需求。 例如,PowerEdge XE9640 的英特尔数据中心 GPU Max 加速器功能已在德克萨斯高级计算中心 (TACC) 使用,以实现其 Stampede3超级计算机.

在密度和冷却方面,PowerEdge XE9640 经过精心设计和设计,可有效利用机架空间,同时提高性能。 凭借其紧凑的 2RU 配置,该服务器为每个机架提供了令人印象深刻的 GPU 容量,从而最大限度地利用了宝贵的数据中心空间。 PowerEdge XE9640 采用 DLC,在效率和成本效益方面优于传统风冷系统。

Dell PowerEdge XE9640 – 其余硬件

除了“仅仅”GPU 之外,XE 系列背后的工程设计也是一流的。 我们刚刚发布了一个 XE9640和XE8640的视频回顾。 该视频提供了有关设计的详细信息,从 XE9640 上的驱动器访问和 DLC 管道布线,到 XE8640 上的闭环 GPU 液体冷却,以及所有 XE 服务器上未来增强的路径。 它嵌入在下面以供参考。

与 XE9640 相比,移除挡板可以轻松访问 NVMe 驱动器。 机箱右侧的两个插槽支持 NVMe 启动优化存储子系统 (BOSS) 驱动器,并通过 1 x M.2 SSD 包括 HWRAID 2。 如今,主存储通过 4 个 U.2 Gen4 NVMe 驱动器提供。 由于 SSD 托盘选项支持 8 个 E3.S Gen5 NVMe 驱动器,未来版本中的数量将增加一倍。 该平台不支持 U.2 NVMe 托架的 HW RAID,尽管大多数都不需要它。 许多 GPU 盒子都利用外部的大量数据集。 在这种情况下,本地存储不会成为这些大型数据集的主要来源。

当然,对于需要利用海量存储阵列的人工智能专业人士来说,服务器后面有很好的扩展选项。 XE9640支持四个PCIe Gen5插槽,两个半高和两个全高。 此外,您还有一个 PCIe Gen3 OCP NIC 插槽。

戴尔 PowerEdge XE9640 正面

戴尔 PowerEdge XE9640 正面

为了消除对泄漏的担忧,液冷服务器在 iDRAC 中包含泄漏检测报告。 当您深入机箱的不同部分时,戴尔检测泄漏的方法非常令人难以置信。 例如,在下面的 CPU 冷却板照片中,您可以在整个水块周围以锯齿状图案辨认出细小的铜迹。 如果有水滴到这些连接上,开路回路就会检测到小短路,系统就会知道发生了泄漏。 底盘其他部位采用编织钢丝绳,检测方法类似。 这在我们的主液体分配块的照片中可以看到,底盘前面有许多软管。 此外,CoolIT CDU 和回路的其余部分还在沿途的许多点提供泄漏检测报告。

戴尔 PowerEdge XE9640

Dell PowerEdge XE9640 泄漏检测

顺便说一句,风冷式 XE8640 和 XE9680 还包括闭环 GPU 液体冷却,并通过 iDRAC 进行相同的泄漏检测。

优化每个机架的功率

PowerEdge XE9640 为客户提供了微调每机架功率利用率的机会。 每个机架有九台服务器,加速计算的峰值负载可能需要大约 41kW 的功率,利用三相配电来平衡性能。 为了扩大规模,数据中心可以部署容纳 12、18 甚至 21 个 PowerEdge XE9640 服务器的机架,分别实现约 54kW、81kW 和 95kW 的功率水平。 这种适应性使数据中心能够根据特定要求优化其机架电源使用。

Dell PowerEdge XE9640 液体歧管

Dell PowerEdge XE9640 内部液体冷却歧管

戴尔整理了各种资源,帮助客户全面了解 PowerEdge XE9640。 这包括拆箱视频和详细的产品评论。 拆箱视频展示了服务器的设计和功能,为客户提供了其功能的视觉之旅。

为了进一步强调 PowerEdge XE9640 的优势,戴尔制作了一张信息图,将其与风冷同类产品进行了比较。 PowerEdge XE8640。 该信息图重点介绍了 PowerEdge XE9640 的显着区别,特别是其液体冷却效率和每个机架令人印象深刻的 GPU 容量。

戴尔 PowerEdge XE9640 后部

戴尔 PowerEdge XE9640 后部

总结

PowerEdge XE9640 是戴尔不断扩展的生成式人工智能解决方案的组成部分,旨在彻底改变人工智能工作负载并促进创新。 戴尔的生成式人工智能解决方案结合了戴尔科技集团提供的尖端技术、创新和服务,可提供更智能、更快速的成果。 通过利用生成式人工智能的功能,组织可以获得新的见解、加快转型工作并提高员工效率。

虽然 XE9680 可能仍然是我们最喜欢的戴尔 GPU 服务器,但 XE9640 纯粹是从效率和设计的角度赢得了我们的青睐。 2U机箱占用了大量的工程量; 采用液体冷却的数据中心显然会倾向于使用这些节能的机箱。 四个 NVIDIA 模块本身的功耗为 2800W,因此戴尔在帮助数据中心提高机架效率和能效方面所做的一切都是一个巨大的飞跃。

信息图表

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅