CoolIT 拥有冷板、歧管和冷却分配单元,旨在帮助企业为高耗电的服务器采用液体冷却。
我们与 CoolIT Systems 合作,将液体冷却引入我们的实验室。作为这项工作的一部分,我们组装了一个迷你液体冷却装置并改装了 Dell PowerEdge R760,将其从风冷改为液冷。我们刚刚开始我们的液体冷却之旅,但已经对直接液体冷却 (DLC) 的优势有了重要发现。
需要某种形式的液体冷却来支持现代工作负载。对于具有大量 CPU 和 GPU 热设计能力 (TDP) 的风冷服务器来说,数学不再适用。通过冷板交付的 DLC 是最常见的解决方案,每个服务器供应商都至少有一种选择。对于戴尔来说,他们与 CoolIT Systems 合作,为整个 PowerEdge 产品组合提供液体冷却。
与大多数数据中心一样,我们的实验室最初的设计并不是为了利用液体冷却。但是,像许多数据中心一样,我们看到最高功率的服务器需要某种形式的液体冷却,如果我们想利用这些系统,我们需要适应。这是我们最近在企业中经常听到的一个故事,因为数据中心正在投资人工智能,并且发现大多数这些系统很快就需要某种液体循环来运行。
在我们的案例中,我们决定首先改造实验室中的一台 Dell PowerEdge R760 服务器。需要明确的是,当客户需要液冷服务器时,他们是通过这种方式从戴尔订购的。戴尔负责与 CoolIT 的集成,客户会收到安装有冷板和用于液体冷却的软管的服务器。 DLC PowerEdge 系统有一些细微差别,使它们与风冷服务器不同,我们在这项工作中进入了相对未知的领域。 iDRAC 卡有所不同,例如,DLC 版本有泄漏检测引线。我们在转换过程中取得了成功,但安装您自己的冷板不受支持。
CoolIT DLC 套件
CoolIT 为我们配备了一个迷你系统,该系统通常用于在客户向其数据中心添加液体冷却的过程中进行小型概念验证。也就是说,该系统可以扩展到 10kW,因此对于那些刚接触液体冷却的人来说,这是获得半个机架左右经验的好方法。该设置由三个关键组件组成:冷板、机架歧管和冷却剂分配单元 (CDU)。
冷板专为特定 TDP 使用案例而设计,完美适合要冷却的 CPU 或 GPU。它们看起来看似简单,尽管板上本身没有泵或移动部件,但由于 TDP 不断上升,工程设计也并非微不足道。从长远来看,CoolIT 最近推出了 新冷板生产线 最高可支持1500W。相比之下,我们 R760 中的 CPU 就显得有些平庸,Intel Xeon 8580 CPU 的 TDP“仅为”350W。
安装冷板非常简单,这些块甚至预先涂有导热膏,这是一个非常简单的嵌入式套件。如前所述,DLC 系统有不同的 iDRAC 卡,该卡具有从冷板延伸的泄漏检测电缆的连接点。软管通过 DLC iDRAC 套件附带的不同支架从 R760 背面引出。
冷板通过标记的热/冷连接连接到歧管。歧管本身由不锈钢制成,配件为无滴快速断开装置。将服务器连接到歧管需要几秒钟的时间,歧管是预先填充的。顺便说一句,我们的歧管位于机架的后面,但如果需要,可以将其配置在前面。我们为该用例提供了一个迷你歧管,更传统的 DLC 机架将有一个覆盖整个机架的歧管。歧管直接连接到 CDU。
CDU 在这个循环中承担了繁重的工作,我们使用的是 CoolIT AHx10。这是一款 5U 液-空 CDU,可在 7C 环境温度下处理 25kW 的负载。 CoolIT 提供了一个扩展套件,可将该装置扩展至 10kW。底盘内部有一个液体-空气热交换器和冗余泵。 CDU 与歧管一样,都是预先填充的。我们将 CDU 放置在机架中相对较低的位置,但 CDU 可以放置在任何地方,具体取决于机架的设置方式。
AHx10 的最大功耗为 750W,这有助于围绕节能进行整体经济讨论。该系统具有直观的触摸屏显示器,提供远程访问支持。除了最初设置泵压力之外,CDU 几乎不需要做任何事情,它几乎设置好后就可以忘记它,我们的 CDU 已经运行了几周,没有任何额外的干预。
值得注意的是,对于这款 CoolIT 设备,我们并没有解决热量本身的问题。我们实际上是将热量从 R760 的 CPU 转移到 CDU 内的热交换器。我们仍然需要像以前一样冷却实验室,因为我们没有设施水能够将热量转移到实验室之外。也就是说,像这样的小型系统非常适合一些液冷服务器,并且可能非常适合小型人工智能部署的企业,例如 戴尔 PowerEdge XE9640 会搭配得很好。
尽管我们仍然需要应对实验室中 DLC R760 的热量,但改用液体冷却有几个好处。
DLC 的好处
从空气冷却转向液体冷却时,最大、最明显的好处是减少风扇的使用。 R760 仍然需要气流来支持 DRAM 和存储等系统组件,但它们不需要旋转得那么快。虽然这使服务器更加安静,但 DLC 循环的最佳部分是减少电力消耗。我们发现的另一件事有点令人惊讶,DLC R760 的性能比风冷时要好一些。
为了更仔细地了解 R760 的电力消耗,我们建立了 Quarch QTL2843 市电功率分析模块。我们使用工厂风冷散热器和 CoolIT 冷板运行服务器。为了给CPU施加压力,我们进行了50亿位的Pi计算,这给CPU和DRAM带来了非常重的负载。我们的目的是尽可能地提高 CPU 的性能,以确保风扇能够发挥最大的作用。
DLC 实施的影响立即显而易见。在风冷配置中运行 R760 时,风扇在工作负载期间旋转至 100%,正如预期的那样。使用 DLC 配置时,R760 选择以 32% 的速度旋转风扇,这是一个戏剧性的下降。这相当于仅在一台服务器中就节省了 200 瓦的电量。突出的不仅仅是风扇速度,CPU 本身的温度大约只有 DLC 的一半,风冷时为 41/42C,而风冷时为 88/89C。
但液体冷却带来的不仅仅是节能。我们看到了一些性能提升,这是我们没有预料到的。凭借冷却板提供更好的冷却效果,CPU 可以充分运行。在风冷配置下,R760在50秒内完成了369亿Pi计算。在 DLC 配置中,R760 的速度稍快一些,在 347 秒内完成了计算。性能提升了约 6%,让我们可以从英特尔 CPU 中获得更多收益。
总结
我们刚刚在实验室开始使用液体冷却,很高兴能与 CoolIT 合作开展这项初步工作。冷板在 PowerEdge R760 上完美工作,歧管和 CDU 组合在一起,“正常工作”,无需任何担忧或持续修补。对于那些担心将液体带入数据中心的人来说,持续的简单性至关重要。我们也没有发生泄漏或其他更具灾难性的事件,这是预料之中的,这是故障率极低的企业设备。
对于希望将高功率人工智能系统引入数据中心的企业来说,液冷已成定局。 8 路 GPU 服务器将放弃空气冷却,而选择像这样的 DLC 循环,或者至少选择闭环和散热器。无论哪种方式,一定量的液体都会进入数据中心。凭借大量的电力节省和适度的性能提升,企业有很多理由采用 DLC 服务器。
CoolIT 是该领域明显的领导者,它与戴尔的关系以易于使用的方式将各种液体冷却解决方案推向市场,几乎无需担心。我们期待进一步探索我们的小循环,并迫不及待地想在实验室中看到更多液冷服务器。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅