CoolIT 擁有冷板、歧管和冷卻分配單元,旨在幫助企業為高耗電的伺服器採用液體冷卻。
我們與 CoolIT Systems 合作,將液體冷卻引入我們的實驗室。作為這項工作的一部分,我們組裝了一個迷你液體冷卻裝置並改裝了 Dell PowerEdge R760,將其從風冷改為液冷。我們剛開始我們的液體冷卻之旅,但已經對直接液體冷卻 (DLC) 的優勢有了重要發現。

DLC 轉換後的 Dell PowerEdge R760
需要某種形式的液體冷卻來支援現代工作負載。對於具有大量 CPU 和 GPU 熱設計能力 (TDP) 的風冷伺服器來說,數學不再適用。透過冷板交付的 DLC 是最常見的解決方案,每個伺服器供應商都至少有一個選擇。對於戴爾來說,他們與 CoolIT Systems 合作,為整個 PowerEdge 產品組合提供液體冷卻。
與大多數資料中心一樣,我們的實驗室最初的設計並不是為了利用液體冷卻。但是,像許多資料中心一樣,我們看到最高功率的伺服器需要某種形式的液體冷卻,如果我們想利用這些系統,我們需要適應。這是我們最近在企業中經常聽到的一個故事,因為資料中心正在投資人工智慧,並且發現大多數這些系統很快就需要某種液體循環來運作。
在我們的案例中,我們決定先改造實驗室中的一台 Dell PowerEdge R760 伺服器。需要明確的是,當客戶需要液冷伺服器時,他們是透過這種方式從戴爾訂購的。戴爾負責與 CoolIT 的集成,客戶會收到安裝冷板和用於液體冷卻的軟管的伺服器。 DLC PowerEdge 系統有一些細微差別,使它們與風冷伺服器不同,我們在這項工作中進入了相對未知的領域。 iDRAC 卡有所不同,例如,DLC 版本有洩漏檢測引線。我們在轉換過程中取得了成功,但安裝您自己的冷板不受支援。
CoolIT DLC 套件
CoolIT 為我們配備了一個迷你係統,該系統通常用於在客戶向其資料中心添加液體冷卻的過程中進行小型概念驗證。也就是說,該系統可以擴展到 10kW,因此對於那些剛接觸液體冷卻的人來說,這是獲得半個機架左右經驗的好方法。此設置由三個關鍵組件組成:冷板、機架歧管和冷卻劑分配單元 (CDU)。

CoolIT R760 冷板
冷板專為特定 TDP 使用案例而設計,完美適合要冷卻的 CPU 或 GPU。它們看起來看似簡單,儘管板上本身沒有泵浦或移動部件,但由於 TDP 不斷上升,工程設計並非微不足道。從長遠來看,CoolIT 最近推出了 新冷板生產線 最高可支援1500W。相較之下,我們 R760 中的 CPU 就顯得有些平庸,Intel Xeon 8580 CPU 的 TDP「僅為」350W。

附 CoolIT 冷板的戴爾 R760
安裝冷板非常簡單,這些塊甚至預先塗有導熱膏,這是一個非常簡單的嵌入式套件。如前所述,DLC 系統有不同的 iDRAC 卡,該卡具有從冷板延伸的洩漏檢測電纜的連接點。軟管透過 DLC iDRAC 套件附帶的不同支架從 R760 背面引出。

CoolIT 歧管
冷板透過標記的熱/冷連接連接到歧管。歧管本身由不銹鋼製成,配件為無滴快速斷開裝置。將伺服器連接到歧管需要幾秒鐘的時間,歧管是預先填充的。順便說一句,我們的歧管位於機架的後面,但如果需要,可以將其配置在前面。我們為該用例提供了一個迷你歧管,更傳統的 DLC 機架將有一個覆蓋整個機架的歧管。歧管直接連接到 CDU。

CoolIT AHx10 CDU
CDU 在這個循環中承擔了繁重的工作,我們使用的是 CoolIT AHx10。這是一款 5U 液-空 CDU,可在 7C 環境溫度下處理 25kW 的負載。 CoolIT 提供了一個擴充套件,可將裝置擴展至 10kW。底盤內部有一個液體-空氣熱交換器和冗餘泵。 CDU 與歧管一樣,都是預先填充的。我們將 CDU 放置在機架中相對較低的位置,但 CDU 可以放置在任何地方,具體取決於機架的設定方式。

CoolIT AHx10 接口
AHx10 的最大功耗為 750W,有助於圍繞節能進行整體經濟討論。該系統具有直覺的觸控螢幕顯示器,提供遠端存取支援。除了最初設定泵壓力之外,CDU 幾乎不需要做任何事情,它幾乎設置好後就可以忘記它,我們的 CDU 已經運行了幾週,沒有任何額外的干預。
值得注意的是,對於這款 CoolIT 設備,我們並沒有解決熱量本身的問題。我們實際上是將熱量從 R760 的 CPU 轉移到 CDU 內的熱交換器。我們仍然需要像以前一樣冷卻實驗室,因為我們沒有設施水可以將熱量轉移到實驗室之外。也就是說,像這樣的小型系統非常適合一些液冷伺服器,並且可能非常適合小型人工智慧部署的企業,例如 戴爾 PowerEdge XE9640 會搭配得很好。

液冷戴爾 PowerEdge XE9640
儘管我們仍然需要應對實驗室中 DLC R760 的熱量,但改用液體冷卻有幾個好處。
DLC 的好處
從空氣冷卻轉向液體冷卻時,最大、最明顯的好處是減少風扇的使用。 R760 仍然需要氣流來支援 DRAM 和儲存等系統組件,但它們不需要旋轉得那麼快。雖然這使伺服器更加安靜,但 DLC 循環的最佳部分是減少電力消耗。我們發現的另一件事有點令人驚訝,DLC R760 的性能比風冷時要好一些。
為了更仔細地了解 R760 的電力消耗,我們建立了 Quarch QTL2843 市電功率分析模組。我們使用工廠風冷散熱器和 CoolIT 冷板運行伺服器。為了給CPU施加壓力,我們進行了50億位元的Pi運算,這為CPU和DRAM帶來了非常重的負載。我們的目的是盡可能地提高 CPU 的效能,以確保風扇能夠發揮最大的作用。

R760 iDRAC DLC 配置
DLC 實施的影響立即顯而易見。在風冷配置中運行 R760 時,風扇在工作負載期間旋轉至 100%,如預期的那樣。使用 DLC 配置時,R760 選擇以 32% 的速度旋轉風扇,這是一個戲劇性的下降。這相當於僅在一台伺服器中就節省了 200 瓦的電量。突出的不僅是風扇速度,CPU 本身的溫度大約只有 DLC 的一半,風冷時為 41/42C,而風冷時為 88/89C。

R760 iDRAC 風冷配置
但液體冷卻帶來的不僅是節能。我們看到了一些性能提升,這是我們沒有預料到的。憑藉冷卻板提供更好的冷卻效果,CPU 可以充分運作。在風冷配置下,R760在50秒內完成了369億Pi運算。在 DLC 配置中,R760 的速度稍快一些,在 347 秒內完成了計算。效能提升了約 6%,讓我們可以從英特爾 CPU 中獲得更多效益。
最後的思考
我們剛在實驗室開始使用液體冷卻,很高興能與 CoolIT 合作進行這項初步工作。冷板在 PowerEdge R760 上完美工作,歧管和 CDU 結合在一起,“正常工作”,無需任何擔憂或持續修補。對於那些擔心將液體帶入資料中心的人來說,持續的簡單性至關重要。我們也沒有發生洩漏或其他更災難性的事件,這是預料之中的,這是故障率極低的企業設備。

帶 DLC 軟管的戴爾 R760 後部
對於希望將高功率人工智慧系統引入資料中心的企業來說,液冷已成定局。 8 路 GPU 伺服器將放棄空氣冷卻,而選擇像這樣的 DLC 循環,或至少選擇閉環和散熱器。無論哪種方式,一定量的液體都會進入資料中心。憑藉大量的電力節省和適度的效能提升,企業有很多理由採用 DLC 伺服器。
CoolIT 是該領域明顯的領導者,它與戴爾的關係以易於使用的方式將各種液體冷卻解決方案推向市場,幾乎無需擔心。我們期待進一步探索我們的小循環,並迫不及待地想在實驗室中看到更多液冷伺服器。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱