Chilldyne 播客——针对数据中心的液体冷却解决方案,专注于高性能服务器的防漏设计和效率。
Brian 很少有机会和医生一起参加播客。不过,今天,Chilldyne 首席执行官 Steve Harrington 博士加入了他的播客。我们一直对液体冷却技术非常感兴趣,而且越来越多的技术不断涌现。但我们对 Chilldyne 情有独钟。
以下是关于 Steve Harrington 博士的一些背景。他是 Chilldyne 的首席技术官和 Flometrics 的创始人。他是流体动力学和热力学的专家和发明家,设计过泵、阀门、喷嘴、流量计、飞机冷却系统、火箭燃料泵、火箭试验台、涡轮流量测量系统、医用呼吸机、空气/氧气混合器、呼吸加湿器、CPAP 机、肺量计、热交换器、吸尘器、氧气浓缩器、摩托车整流罩、输液泵、电子冷却系统、波浪机、数据采集系统等。但等等,还有更多。他的专业知识涉及电子、编程、光学、核物理、生物学和生理学。
Steve 在流体动力学和热力学领域拥有超过 29 年的经验。他曾为航空航天、半导体、医疗设备、赛车、电子冷却和其他行业提供咨询。他拥有超过 25 项专利,并曾为 NASA、DARPA、SOCOM 和 USACE 完成项目。
闲暇时,他是加州大学圣地亚哥分校的兼职教员,教授航空航天工程专业大四学生的设计课程,让学生操作、制造和驾驶液体火箭。他还是一名冲浪者、飞行员、潜水员、船舶和汽车修理工、电工和水管工。
关于液体冷却还有很多需要学习,我们认为这个播客将有助于解答世界各地 IT 和数据中心专业人士心中的一些问题。
这应该足以让你有兴趣听完整个播客。但是,如果你时间紧迫,我们将播客分成了五分钟的片段,以便你可以根据需要跳转。
00:00 – 05:30 简介
“热门”新技术:液冷
Brian 开篇就提到了液冷是数据中心的“热门”技术。液冷技术已经走了一个完整的循环——随着 CMOS 的出现,液冷一度被抛弃,但现在由于现代处理器产生的高热而重新流行起来。
从超级计算机到喷气发动机
Steve 介绍了他从事液体冷却事业的一些个人经历,从 1980 世纪 XNUMX 年代的超级计算机冷却开始。有趣的是:他在冷却火箭发动机和激光系统方面的专业知识很好地转化为现代数据中心液体冷却。
液冷为何退出历史舞台?
液体冷却被搁置,因为人们认为 CMOS 技术已经解决了电源问题。意外!电源需求又卷土重来。
从航空航天到数据中心
在航空航天领域,液体冷却不仅仅用于冷却,还涉及长期可靠性——想想飞机、火箭和激光器。另一方面,数据中心需要正常运行时间和使用寿命,这给史蒂夫从航空航天业转型带来了独特的挑战。
ARPA-E 拨款和 2 千瓦芯片
史蒂夫的远见卓识包括与 ARPA-E 合作开发用于两千瓦芯片的冷却板。这一远见卓识正在取得回报,因为越来越多的数据中心正在竞标这些高功率芯片的项目。
05:30 – 10:24 让首席财务官放心
液体冷却:首席财务官的噩梦?
测试液体冷却系统可能要花费数百万美元。说服首席财务官批准这样的“实验”并非易事,尤其是因为它们与财务电子表格格格不入。这就像花 2 万美元购买试驾车一样——听起来很有趣,但风险很大。
分享秘密:元悖论
Meta 和其他商业巨头往往比公司算法更严密地保密他们的液体冷却秘密。分享是关怀,但当存在竞争时就不是了。
Chilldyne 的防泄漏负压系统
Chilldyne 的秘诀:一种基本上无泄漏的负压系统。如果发生泄漏,空气会进入,而不是冷却液溢出,从而防止切屑被浸湿。
处理泄漏:何时不必惊慌
即使出现泄漏,Chilldyne 的系统仍能继续运行。
液体冷却数据:缺失的章节
关于液体冷却对磨损影响的行业数据很少。液体冷却更像是一个神秘的“啤酒会议”话题,而不是一个公开讨论的话题。
10:24 – 14:55 防止细菌进入水中
数据中心冷却剂的生物多样性
您是否知道供水中的细菌会干扰您的液体冷却系统?不同地区有不同的微生物,这些微生物可能会严重破坏数据中心的冷却系统,导致板子堵塞和 GPU 过热。
冷却液化学 101
Chilldyne 拥有内置化学实验室,用于监测冷却剂质量。忘掉你的无菌水梦想吧;这是一场生物与技术的较量。
冷却液添加剂:预算难题
除非您喜欢紧急维护,否则不要在冷却剂化学品上吝啬。
PG 25:游戏玩家的朋友,数据中心的敌人
PG 25 非常适合游戏玩家——它不会结冰,还能防止细菌滋生。然而,它会破坏密封件,导致随着时间的推移出现泄漏,因此不太适合长期在数据中心使用。
化学在数据中心维护中的作用
数据中心常常忘记,液体冷却并不是一个“设置好后就忘掉”的解决方案。它需要定期监控和维护。
14:55 – 20:16 低毒添加剂的必要性
保持凉爽的添加剂
Chilldyne 使用低毒添加剂:少量抗菌和防腐化学品。
有时候,拒绝 PG 25
对于运送液冷设备的游戏玩家来说,PG 25 是一款“不冻结”的救星,但对于数据中心来说,其作用就小得多。
设施用水只是开始
安装 CDU(冷却分配装置)时,Chilldyne 从蒸馏水或反渗透过滤水开始。
冷盘清洁队
有一位客户拒绝使用推荐的添加剂,导致 GPU 堵塞、发热。Chilldyne 介入,使用化学清洁剂进行清洁,但如果冷却板太粘,有时就没戏了 — 需要更换。
液冷 ≠ 设置完毕,就忘掉它
电子产品可能可以顺利运行多年,但液体冷却呢?那可就完全不同了。
20:16 – 26:03 水仍然是最佳的降温方式
水:冷却液的 MVP
为什么要坚持使用优质水?它便宜、无毒,而且性能良好——尤其是在单相系统中。
浸入式冷却:慢速燃烧
采用工程油进行浸入式冷却具有一定的潜力,特别是在边缘区域或中等功率的服务器中,但对于当今的两千瓦怪物来说,它的效率还不够高。
当管道变得太大时
随着冷却系统规模扩大,请注意后勤噩梦。
电气限制:真正的瓶颈
虽然液体冷却系统可以扩展,但芯片可以处理的电流量是有限的。
别忘了冷却器
虽然冷却塔在许多地方都是理想之选,但有些地区由于缺水而需要冷却器。选择冷却塔。
26:03 – 29:44 这是泄漏吗?
泄密不会告诉你
与服务器组件不同,液体冷却系统还不够智能,无法提前发出泄漏警告。
正压问题
使用特殊胶带检测泄漏的正压系统是被动的——当出现问题时,它们会关闭服务器。然而,像 Chilldyne 这样的负压系统即使有轻微泄漏也能保持服务器运行,避免代价高昂的停机。
兼容性混乱
从多个供应商处购买零件存在兼容性问题。
管道工程不是一项 IT 技能
数据中心运营商精通网络、网络安全和电源管理,但他们不是水管工或化学家。这就是专业供应商发挥作用的地方。
切换阀:故障安全
Chilldyne 使用切换阀来提供冷却系统的冗余。这些阀门的工作原理类似于飞机的安全机制 - 如果一个系统发生故障,另一个系统就会启动,而服务器甚至不会察觉到。
29:44 – 35:22 确保液体冷却符合您的需求
规模至关重要:100kW 门槛
史蒂夫认为,除非你要处理超过 100kW 的计算能力,否则液体冷却并不值得这么麻烦。
财富 500 强及以上
大公司已经进入这一领域,但即使是中型企业也开始感受到压力。配备 GPU 的服务器的功耗意味着液体冷却将很快成为许多组织的必需品。
不存在的机架规模 CDU
Chilldyne 设计了一种 50-100kW 机架式 CDU,但目前尚无用户采用。
四英寸管道问题
液体冷却系统的最大功率约为 1-2MW,之后管道会变得难以操控。保持系统可管理是关键。
电气与冷却限制
我们正接近这样一个点:电气限制比冷却能力更成问题。
35:22 – 40:16 这里热吗?
热处理难题
仅冷却齿轮是不够的,你还必须处理所有的热量。
芯片温度探戈
冷却效率和芯片性能之间存在平衡。设计可以在必要时降低温度的系统,因为下一代芯片在降低温度下的性能可能会提高 20%。
数据中心数学越来越难
考虑冷却塔效率、GPU 性能、风扇速度等诸多因素。当今冷却解决方案背后的数学对于优化至关重要。
HVAC 和 IT:奇怪的伙伴
HVAC 工程师和 IT 团队过去分开运作,但液体冷却将他们联系在一起。
让 IT 人员了解最新情况
鼓励硬件提供商和冷却专家之间的合作,以确保解决方案不会在压力下融化。
40:16 – 43:35 总结
立即开始使用液体冷却
Steve 建议从小处着手,但现在就开始。在你陷入太深之前,建立一个系统,运行它,并从中学习。
过度自信的危险
一些公司正在规划大规模液冷数据中心,但从未测试过小型系统。
交货时间:确实如此
液体冷却系统的交货周期为 16 至 52 周。因此,最好尽早下订单!
新机架的规格混乱
NVIDIA 的全新 MVL 机架即将面世,但具体的水温和化学指南仍不清楚。
家庭实验室心态:让您的代表参与进来
史蒂夫鼓励企业采取“家庭实验室”的方法:从小处着手,不断尝试,不断学习。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅