在當前的計算市場中,公司之間開發具有人工智慧功能的機器的競爭日益激烈。挑戰不在於誰能建造最大、最糟糕的機器;而在於誰能製造出最大、最糟糕的機器。誰能製造出最高效的機器。
在當前的計算市場中,公司之間開發具有人工智慧功能的機器的競爭日益激烈。挑戰不在於誰能建造最大、最糟糕的機器;而在於誰能製造出最大、最糟糕的機器。誰能製造出最高效的機器。
當伺服器運行AI進程時, 它們產生大量的熱量,比運行標準業務流程和服務的通常伺服器更多。因此,設計包含這些伺服器的系統的工程師必須考慮更強大的冷卻和熱交換組件。
CPU 插槽所使用的電量與系統滿載時所設計的散熱之間存在關係。這稱為熱設計點或 TDP。公司使用 TDP 作為指導,確保他們在伺服器中使用最強大的晶片,同時設計物理效率最高的盒子和闆卡,以實現大型資料中心環境中的密度。盒子越大,對散熱的影響就越大。然而,這會導致資料中心伺服器密度的損失。這是一種微妙的平衡。
隨著其最新一代運算伺服器的推出,Cloudflare 似乎遇到了這種關係的上限。 As they are planning the design of their 12th generation server, they have discovered that it is no longer feasible to cram the latest AMD EPYC x86 processor and all its accouterments, especially the required eight 40mm dual rotor fans, which running anything at this level for他們的 工人人工智慧 程式將使它們以 100% 的工作週期全職運行。
未來潛在的途徑
儘管您可以增加伺服器的實體尺寸以容納更大的風扇和 CPU 散熱片以散熱,但這種方法很快就會變得低效。
假設您在資料中心部署了一個 40 kW 機櫃。在風冷系統中,輸入機櫃的能量中高達 30% 可能會用於為伺服器風扇供電。這意味著該機櫃的實際運算能力僅約為 28 kW。相較之下,由液體冷卻系統支援的相同機櫃可以將多達 39 kW 的功率專門用於計算工作負載。簡而言之,液體冷卻可以讓您以相同的功率做更多的事情。
此外,由於水的熱容量比空氣高 4 倍,因此這些新型液冷伺服器可以支援更高儲存容量、更快的處理器,同時具有更低的功耗需求和更高的可靠性。透過更高效的液體冷卻替代或補充傳統的空氣冷卻,可以提高資料中心的整體運作效率。
戴爾已經證明了 冷卻和能源效率提高 50-60% 在其資料中心採用液體冷卻技術。如果 Cloudflare 停止發展其實體設備並擁抱液體冷卻革命,它將加入系統設計者的行列,成功地壓縮儲存和運算能力,同時降低整體擁有和營運成本。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱