首頁 Enterprise 播客 #134:防漏液體冷卻

播客 #134:防漏液體冷卻

by 哈羅德弗里茨

Chilldyne Podcast – 資料中心液體冷卻解決方案,專注於高效能伺服器的防漏設計和效率。

布萊恩很少能坐下來和醫生一起聽播客。然而,今天 Chilldyne 執行長 Steve Harrington 博士也加入了他的行列。我們一直對液體冷卻技術非常感興趣,並且不斷有更多的液體冷卻技術出現。但我們對 Chilldyne 情有獨鍾。

關於史蒂夫·哈林頓博士的一些背景。他是 Chilldyne 的 CTO,也是 Flometrics 的創始人。他是流體動力學和熱力學領域的專家和發明家,設計泵、閥門、噴嘴、流量計、飛機冷卻系統、火箭燃料泵、火箭試驗台、渦輪流量測量系統、醫用呼吸機、空氣/氧氣混合器、呼吸加濕器、CPAP機器、肺活量計、熱交換器、吸塵器、制氧機、摩托車整流罩、輸液幫浦、電子冷卻系統、波機、資料採集系統等。他的專業知識涵蓋電子、程式設計、光學、核子物理、生物學和生理學。

Steve 在流體動力學和熱力學領域擁有超過 29 年的經驗。他曾為航空航太、半導體、醫療設備、賽車、電子冷卻和其他行業提供諮詢服務。他擁有超過 25 項專利,並為 NASA、DARPA、SOCOM 和 USACE 完成了專案。

當他不忙的時候,他是加州大學聖地牙哥分校的兼職教員,在那裡教授航空航天工程高級設計課程,學生可以在其中安裝、建造和飛行液體火箭。他也是一名衝浪者、飛行員、水肺潛水員、船隻和汽車修理工、電工和水管工。

關於液體冷卻有很多東西需要了解,我們認為這個播客將有助於回答世界各地 IT 和資料中心專業人員心中的一些問題。

這應該足以讓您有興趣收聽整個播客。不過,如果您時間有限,我們已將時間段分成五分鐘的片段,以便您可以根據需要隨意跳動。

取得視訊播客!


00:00 – 05:30 簡介

「熱門」新技術:液冷

Brian 以雙關語開場,稱液體冷卻是資料中心的「熱門」技術。液體冷卻已經兜了一圈——曾經隨著 CMOS 的出現而被放棄,現在由於現代處理器產生的強烈熱量而重新興起。

從超級電腦到噴射發動機

Steve 講述了他從 1980 世紀 XNUMX 年代冷卻超級電腦開始的液體冷卻之旅的一些個人歷史。有趣的事實:他在冷卻火箭引擎和雷射系統方面的專業知識很好地轉化為現代資料中心液體冷卻。

液冷為何退出?

由於人們認為 CMOS 技術已經解決了功耗問題,液體冷卻技術被擱置了。驚喜!電力需求捲土重來。

從航空航太到資料中心

在航空航太領域,液體冷卻不僅涉及冷卻;還涉及冷卻。這是關於隨著時間的推移的可靠性——想想飛機、火箭和雷射。另一方面,資料中心需要正常運作時間和壽命,這給史蒂夫從航空航太領域的轉型帶來了獨特的挑戰。

ARPA-E Grant 和 2 千瓦晶片

Steve 的遠見包括與 ARPA-E 合作開發兩千瓦晶片的冷板。隨著越來越多的資料中心競標採用這些高功率晶片的項目,這種遠見正在得到回報。


05:30 – 10:24 讓財務長放心

液體冷卻:財務長的惡夢?

測試液體冷卻系統可能花費數百萬美元。說服財務長批准此類「實驗」並非易事,尤其是因為它們與財務電子表格不完全相符。這就像花 2 萬美元購買試駕一樣——聽起來很有趣,但也有風險。

分享秘密:元悖論

Meta 和其他商業巨頭傾向於將其液體冷卻秘密鎖得比公司演算法更嚴密。分享是關懷,但當涉及競爭時就不是了。

Chilldyne 的防漏負壓系統

Chilldyne 的秘密武器:基本上沒有洩漏的負壓系統。如果發生洩漏,空氣會進入而不是冷卻劑溢出,從而確保晶片免受潮濕的命運。

處理洩漏:何時不必驚慌

即使發生洩漏,Chilldyne 的系統仍能繼續運作。

液冷資料:缺少的章節

有關液體冷卻對磨損影響的全行業數據很少。液體冷卻感覺更像是一個神秘的“啤酒會議”主題,而不是公開討論。


10:24 – 14:55 讓細菌遠離水中

資料中心冷卻劑的生物多樣性

您是否知道供水系統中的本地細菌會擾亂您的液體冷卻系統?不同地區有不同的微生物,這可能會對資料中心冷卻劑系統造成嚴重破壞,導致板堵塞和 GPU 過熱。

冷卻液化學 101

Chilldyne 擁有一個內建化學實驗室來監測冷卻劑品質。忘記你的無菌水夢想;這是生物學與技術之間的戰鬥。

冷卻液添加劑:預算困境

除非您喜歡緊急維護,否則不要在冷卻劑化學上省錢。

PG 25:遊戲玩家的朋友,資料中心的敵人

PG 25 非常適合遊戲玩家 - 它不會結冰並防止細菌生長。然而,它會攻擊密封件,隨著時間的推移導致洩漏,使其不太適合資料中心的長期使用。

化學在資料中心維護中的作用

資料中心經常忘記液體冷卻並不是一種「一勞永逸」的解決方案。它需要定期監控和維護。


14:55 – 20:16 對低毒性添加劑的需求

保持涼爽的添加劑

Chilldyne 使用低毒性添加劑:大量抗菌和防腐化學物質。

對 PG 25 說「不」(有時)

對於運送液冷設備的遊戲玩家來說,PG 25 是「不結冰」的救星,但對於資料中心來說則不然。

設施用水只是一個開始

安裝 CDU(冷卻分配裝置)時,Chilldyne 從蒸餾水或逆滲透過濾水開始。

冷板清理隊

一位客戶拒絕使用建議的添加劑,導致 GPU 堵塞、熱亂。 Chilldyne 介入進行化學清洗,但如果冷板粘得太粘,有時遊戲就結束了,需要更換。

 液體冷卻≠設定好後就可以忘記它

電子設備可能可以平穩運行多年,但液體冷卻呢?那是一頭不同的野獸。


20:16 – 26:03 水仍然是最好的冷卻方式

水:冷卻液的 MVP

為什麼要堅持使用好水?它價格便宜、無毒且性能良好,尤其是在單相繫統中。

浸沒式冷卻:緩慢的燃燒器

使用工程油進行浸入式冷卻具有一定的潛力,特別是在邊緣區域或中等功率伺服器中,但對於當今的兩千瓦怪物來說,它的效率還不夠。

當管道變得愚蠢大時

隨著冷卻系統規模的擴大,請注意後勤噩夢。

電氣限制:真正的瓶頸

雖然液體冷卻系統可以擴展,但晶片可以處理的電流是有限的。

不要忘記冷卻器

雖然冷卻水塔在許多地方都是理想的選擇,但有些地區因為缺水而需要冷水機。使用冷卻水塔。


26:03 – 29:44 這是洩漏嗎?

洩密事件不會告訴你

與伺服器組件不同,液體冷卻系統還不夠智能,無法向您提供有關洩漏的高級警告。

正壓的問題

使用特殊膠帶檢測洩漏的正壓系統是反應性的,當出現問題時它們會關閉伺服器。然而,像 Chilldyne 這樣的負壓系統即使在輕微洩漏的情況下也能保持伺服器運行,從而避免代價高昂的停機。

相容性混亂

從多個供應商購買零件的問題是相容性問題。

管道疏通不是 IT 技能

資料中心操作員精通網路、網路安全和電源管理,但他們不是水管工或化學家。這就是專業供應商發揮作用的地方。

切換閥:故障安全裝置

Chilldyne 使用切換閥為冷卻系統提供冗餘。這些閥門的工作原理就像飛機安全機制一樣——如果一個系統故障,另一個系統就會啟動,而伺服器甚至不會注意到。


29:44 – 35:22 確保液體冷卻是您所需要的

規模很重要:100kW 閾值

Steve 建議,除非您處理的運算能力超過 100kW,否則液體冷卻不值得這麼麻煩。

財富 500 強及以上

大公司已經存在,但即使是中型企業也開始感受到熱度。 GPU 伺服器的功耗意味著液體冷卻很快就會成為許多組織的必需品。

機架規模 CDU 並非如此

Chilldyne 設計了 50-100kW 機架規模 CDU,但尚未採用。

四吋管問題

在管道變得笨重之前,液體冷卻系統的最大功率約為 1-2MW。保持系統的可管理性是關鍵。

電氣與冷卻限制

我們正在接近電力限制比冷卻能力更成問題的地步。


35:22 – 40:16 這裡熱嗎?

熱處理難題

僅僅冷卻設備是不夠的——你還必須應付所有的熱量。

晶片溫度探戈

冷卻效率和晶片性能之間存在平衡。如果需要,設計可以降低溫度的系統,因為下一代晶片在較低溫度下的性能可能會提高 20%。

資料中心數學越來越難

考慮冷卻水塔效率、GPU 效能、風扇速度等等。當今冷卻解決方案背後的數學對於最佳化至關重要。

HVAC 與 IT:奇怪的同床異夢

HVAC 工程師和 IT 團隊過去是分開運作的,但液體冷卻正在將他們聚集在一起。

讓 IT 人員了解狀況

鼓勵硬體提供者和冷卻專家之間的合作,以確保解決方案不會在壓力下崩潰。


40:16 – 43:35 總結

立即開始使用液體冷卻

史蒂夫建議從小事做起,但現在就開始。取得一個系統,運行它,並在你陷得太深之前從中學習。

過度自信的危險

一些公司正在規劃大型液冷資料中心,而從未測試過較小的系統。

交貨時間:這是真的

液體冷卻系統的交貨時間為 16 至 52 週。所以,最好儘早拿到這些訂單!

新機架的規格混亂

NVIDIA 的新型 MVL 機架即將推出,但具體的水溫和化學指南仍不清楚。

家庭實驗室心態:讓您的代表參與進來

史蒂夫鼓勵企業採取「家庭實驗室」方法:從小事做起,不斷嘗試,然後學習。

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱