ZutaCore 在採用 AMD EPYC(霄龍)的 Supermicro 伺服器上的兩階段冷卻可提供改進的冷卻、效率和破紀錄的效能。
作為我們對高效能伺服器先進冷卻技術持續評估的一部分,我們在配備雙 AMD EPYC Bergamo CPU 的 Supermicro 伺服器上測試了 ZutaCore® 兩相直接晶片 (DTC) 冷卻解決方案。此次測試是與整合商 Boston Limited 合作在英國伯克郡雷丁的 Centersquare 資料中心進行的。
對高效冷卻解決方案的需求
隨著 CPU 的核心數量和功耗不斷增加,傳統的空氣冷卻解決方案難以跟上尖端處理器的散熱需求。這在高密度運算節點中尤其明顯,其中空氣冷卻方法無法有效管理高效能多核心 CPU(例如 AMD 的 128 核心 EPYC Bergamo)產生的大量熱量。
隨著這些強大的處理器產生大量的熱量輸出,空氣冷卻的限制變得更加明顯。即使是最先進的散熱器也面臨著在不增加噪音或消耗過多功率的情況下保持最佳熱性能的挑戰。
該專案的重點是將雙插槽 Supermicro 機殼從傳統風冷升級到 ZutaCore 的兩相 DTC 解決方案。我們測試了系統預轉換,觀察到顯著的冷卻效率限制,並在安裝 DTC 後對伺服器進行了基準測試。
硬體設定
測試系統採用 1U Supermicro 機箱,配備雙 AMD EPYC Bergamo CPU,每個 CPU 擁有 128 個核心。該伺服器擁有 256 個核心和 768GB RAM,旨在處理密集的工作負載,特別是在人工智慧和資料密集型環境中。然而,即使使用大型傳統風冷散熱器,系統在壓力測試期間仍難以控制溫度,導致熱節流。
我們選擇 ZutaCore 的兩相液體冷卻系統來改善冷卻並增強性能。這項創新系統利用傳熱流體,在直接連接到 CPU 的冷板內從液體轉變為蒸氣。這種相變比傳統的液體或空氣冷卻器具有更高的熱效率,因為液體汽化產生的潛熱有助於更有效地從 CPU 核心吸走熱量。
轉換過程
準備伺服器
改裝過程從拆卸庫存空氣冷卻組件開始。拆除傳統散熱器後,Bergamo CPU 上的小而密集的散熱器顯露出來,其尺寸顯然不足以管理這些耗電晶片的熱負載。在最初的測試中,我們注意到 CPU 溫度很高,並且在壓力下難以保持效能。
安裝 ZutaCore 冷板
下一步是介紹兩相冷卻系統的核心:ZutaCore 的客製化設計冷板。這些冷板配有內部蒸發器,使傳熱流體在通過系統時吸收熱量並蒸發。然後汽化的流體返回冷凝器、冷卻並重新引入系統以後續循環。
該系統更迷人的特徵之一是其機械自我調節。每個蒸發器的浮動機構根據 CPU 的熱負載調節傳熱流體流量。像這樣的閉環系統可確保每個 CPU 無需人工幹預即可接收必要的液體量。
冷板小心地固定在 CPU 上,確保壓力一致和最佳熱接觸。承載傳熱流體的管道連接到冷板,我們進行了一系列壓力測試,以確保在進行完整安裝之前沒有洩漏。
與伺服器的電源和熱管理系統集成
下一個挑戰是將冷卻系統整合到更廣泛的資料中心基礎設施中。 ZutaCore 的 DTC 系統與伺服器現有的熱管理系統集成,並透過 ZutaCore 的冷卻管理軟體提供增強的控制。該軟體可即時監控關鍵指標,例如冷媒壓力、系統中各點的溫度以及 CPU 接面溫度。
該軟體連接到伺服器的IPMI(智慧平台管理介面),允許無縫監控和控製冷卻參數。所提供的細節給我們留下了特別深刻的印象,包括風扇速度、蒸汽溫度和泵浦工作週期。這種對冷卻過程的精細可見性可以微調系統效能以匹配工作負載。
使用快速斷開配件將系統連接到排熱裝置並使用隨附的維修套件快速清除迴路中的大氣氣體後,系統就可以開機了。
性能亮點
轉換前結果
如上所述,在切換到 ZutaCore 的兩相繫統之前,我們使用庫存空氣冷卻進行了一系列基準測試。使用旨在對所有 256 個核心施加壓力的工作負載,系統很快就達到了熱極限,導致 CPU 限制效能以保持在安全工作溫度內。持續的重負載導致 CPU 溫度徘徊在 85°C 附近,時脈速度明顯下降。
轉換後結果
安裝 DTC 解決方案後,我們重新執行了這些基準測試,結果非常顯著。滿載下CPU溫度大幅下降,峰值溫度維持在65℃以下。更重要的是,消除了熱節流。在整個測試過程中,兩相繫統使貝加莫 CPU 保持在較高的持續時脈速度下運作。
毫不奇怪,系統的功耗下降了,因為風扇不再需要旋轉到最大轉速來補償高溫。即使在嘈雜的資料中心環境中,更安靜的運作也立即引人注目。
由於本次練習的目的是為了親身體驗 ZutaCore 解決方案,因此所有測量都是定性的。值得注意的是,在拍攝和寫作時,ZutaCore 冷卻的 Bergamo 系統在 y-cruncher BBP 類別中取得了一些世界紀錄,並在 HWBot.org 上得到了驗證。
電源和冷卻效率
ZutaCore 系統的突出優勢之一是節能潛力。對空氣冷卻的依賴減少,降低了對高轉速風扇和空調的需求,從而節省了實際能源成本。此外,該系統允許伺服器在較高的環境溫度下運行,而不會出現過熱的風險。對於希望透過提高設施溫度來優化 PUE(電源使用效率)的資料中心來說,此功能非常寶貴。
對資料中心的長期影響
ZutaCore 的兩相冷卻解決方案可有效管理高熱負荷,並為資料中心提供長期效益。其提高的能源效率和更低的冷卻成本可能使其對於高密度運算環境至關重要。
對於採用下一代處理器和 GPU(例如 AMD EPYC 和 NVIDIA H100)的資料中心,ZutaCore 冷卻解決方案提供了一個可擴展選項,可管理不斷增加的熱量輸出,而無需對現有基礎設施進行重大更改。
此外,兩相冷卻方法相當環保。 ZutaCore 的傳熱流體無毒且 GWP(全球暖化潛勢值)低。使用介電流體可確保即使發生洩漏,也不存在電氣短路或設備損壞的風險。
結論
Supermicro 雙 AMD EPYC Bergamo 伺服器轉換為 ZutaCore 的兩相直接晶片冷卻解決方案,顯示出熱性能、降噪和能效方面的明顯改進。隨著資料中心不斷擴大規模並突破伺服器效能的極限,ZutaCore 等先進冷卻技術為管理現代運算環境不斷增長的散熱需求提供了一條充滿希望的道路。
如果您正在運行高密度工作負載並將硬體推向極限,那麼從長遠來看,投資 ZutaCore 等先進的冷卻解決方案可以提高效能並節省營運成本。
大喊一聲 波士頓有限公司 提供硬件,Centersquare 提供數據中心!
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱