ZutaCore 在搭载 AMD EPYC 的 Supermicro 服务器上采用两相冷却,可实现更好的冷却效果、更高的效率和破纪录的性能。
作为我们对高性能服务器先进冷却技术的持续评估的一部分,我们在配备双 AMD EPYC Bergamo CPU 的 Supermicro 服务器上测试了 ZutaCore® 两相直接芯片 (DTC) 冷却解决方案。该测试在英国伯克郡雷丁的 Centersquare 数据中心与集成商 Boston Limited 合作进行。
对高效冷却解决方案的需求
随着 CPU 核心数量和功耗不断增长,传统的空气冷却解决方案难以满足尖端处理器的散热需求。这在高密度计算节点中尤为明显,空气冷却方法无法有效管理高性能多核 CPU(例如 AMD 的 128 核 EPYC Bergamo)产生的大量热量。
由于这些强大的处理器会产生大量热量,因此空气冷却的局限性变得更加明显。即使是最先进的散热器也面临着保持最佳散热性能而不增加噪音或消耗过多功率的挑战。
该项目主要围绕将双插槽 Supermicro 机箱从传统空气冷却升级为 ZutaCore 的两相 DTC 解决方案。我们在转换前测试了系统,观察到了明显的冷却效率限制,并在安装 DTC 后对服务器进行了基准测试。
硬件设置
测试系统采用 1U Supermicro 机箱,配备双 AMD EPYC Bergamo CPU,每个 CPU 拥有 128 个内核。这款服务器拥有 256 个内核和 768GB RAM,旨在处理密集工作负载,尤其是在 AI 和数据密集型环境中。然而,即使使用大型传统风冷散热器,系统在压力测试期间也难以控制温度,导致热节流。
我们选择了 ZutaCore 的两相液体冷却系统来改善冷却效果并提高性能。这种创新系统利用传热流体,在直接连接到 CPU 的冷板内从液体转变为蒸汽。这种相变比传统的液体或空气冷却器具有更高的热效率,因为流体蒸发产生的潜热有助于更有效地将热量从 CPU 核心中吸走。
转换过程
准备服务器
改装过程从拆卸原装空气冷却组件开始。拆下传统散热器后,可以看到 Bergamo CPU 上小而密集的散热器,显然尺寸太小,无法管理这些耗电芯片的热负荷。在初始测试中,我们注意到 CPU 温度很高,并且在压力下难以持续发挥性能。
安装 ZutaCore 冷板
下一步是介绍双相冷却系统的核心:ZutaCore 定制设计的冷板。这些冷板配有内部蒸发器,使传热流体在通过系统时吸收热量并蒸发。蒸发后的流体随后返回冷凝器,冷却,然后重新引入系统以继续循环。
该系统最吸引人的特点之一是其机械自调节功能。每个蒸发器的浮动机制都会根据 CPU 的热负荷调节传热流体流量。这样的闭环系统可确保每个 CPU 无需人工干预即可获得所需量的流体。
冷板被小心地安装在 CPU 上,确保压力一致和热接触最佳。载有传热流体的管道连接到冷板,我们进行了一系列压力测试,以确保在进行完整安装之前没有泄漏。
与服务器的电源和热管理系统集成
下一个挑战是将冷却系统集成到更广泛的数据中心基础设施中。ZutaCore 的 DTC 系统与服务器现有的热管理系统集成,并通过 ZutaCore 的冷却管理软件提供增强的控制。该软件允许实时监控关键指标,例如制冷剂压力、系统各点的温度以及 CPU 结温。
该软件连接到服务器的 IPMI(智能平台管理接口),可无缝监控和控制冷却参数。我们对所提供的细节印象特别深刻,包括风扇速度、蒸汽温度和泵占空比。这种对冷却过程的细致了解使系统性能能够微调以匹配工作负载。
使用快速断开配件将系统接入散热装置,并使用附带的维修套件快速清除回路中的大气气体后,系统即可启动。
业绩亮点
转换前结果
如上所述,在切换到 ZutaCore 的两相系统之前,我们用原有的空气冷却系统运行了一系列基准测试。使用旨在对全部 256 个内核施加压力的工作负载,系统很快达到了热极限,导致 CPU 降低性能以保持在安全的工作温度范围内。持续的高负荷导致 CPU 温度徘徊在 85°C 左右,时钟速度明显下降。
转换后结果
安装 DTC 解决方案后,我们重新运行了这些基准测试,结果非常惊人。满载情况下的 CPU 温度显著下降,峰值温度保持在 65°C 以下。更重要的是,消除了热节流。两相系统使 Bergamo CPU 在整个测试过程中保持更高的持续时钟速度。
不出所料,系统的功耗下降了,因为风扇不再需要以最大转速旋转以补偿高温。即使在嘈杂的数据中心环境中,运行也更安静,这一点显而易见。
由于本次练习旨在让大家亲身体验 ZutaCore 解决方案,因此所有测量都是定性的。值得注意的是,在拍摄和撰写本文时,ZutaCore 冷却的 Bergamo 系统在 y-cruncher BBP 类别中创下了几项世界纪录,并在 HWBot.org 上进行了验证。
电源和冷却效率
ZutaCore 系统的一个突出优势是具有节能潜力。减少对空气冷却的依赖,降低了对高转速风扇和空调的需求,从而节省了实际的能源成本。此外,该系统允许服务器在更高的环境温度下运行,而不会出现过热风险。对于希望通过提高设施温度来优化 PUE(电源使用效率)的数据中心来说,此功能非常宝贵。
对数据中心的长期影响
ZutaCore 的两相冷却解决方案可有效管理高热负荷,并为数据中心带来长期效益。其增强的能源效率和更低的冷却成本使其成为高密度计算环境的关键。
对于采用下一代处理器和 GPU(例如 AMD 的 EPYC 和 NVIDIA 的 H100)的数据中心,ZutaCore 冷却解决方案提供了一种可扩展的选项来管理不断增加的热量输出,而无需对现有基础设施进行重大更改。
此外,两相冷却方法相当环保。ZutaCore 的传热流体无毒且 GWP(全球变暖潜能值)低。使用介电流体可确保即使发生泄漏,也不会有电气短路或设备损坏的风险。
总结
Supermicro 双 AMD EPYC Bergamo 服务器转换为 ZutaCore 的两相直接芯片冷却解决方案后,散热性能、降噪和能效均有明显提升。随着数据中心不断扩大规模并突破服务器性能的极限,ZutaCore 等先进冷却技术为管理现代计算环境日益增长的散热需求提供了一条有希望的前进之路。
如果您正在运行高密度工作负载并将硬件推至极限,那么投资像 ZutaCore 这样的先进冷却解决方案可以提高性能并从长远来看节省运营成本。
大喊大叫 波士顿有限公司 提供硬件,Centersquare 提供数据中心!
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅