首頁 企業 戴爾 PowerEdge XE9640 液冷 GPU 伺服器深入探究

戴爾 PowerEdge XE9640 液冷 GPU 伺服器深入探究

by 哈羅德弗里茨

Dell PowerEdge XE9640 是一款 4x GPU 加速的機架式伺服器,借助液體冷卻,能夠以節能的方式提供 AI 電源。 XE9640 於期間發布 SC22 以及 XE8640 和我們最喜歡的產品之一,8 路 XE9680 GPU 伺服器。 今天,XE9640 已全面上市,我們正在深入研究底層硬體。

Dell PowerEdge XE9640 是一款 4x GPU 加速的機架式伺服器,借助液體冷卻,能夠以節能的方式提供 AI 電源。 XE9640 於期間發布 SC22 以及 XE8640 和我們最喜歡的產品之一,8 路 XE9680 GPU 伺服器。 今天,XE9640 已全面上市,我們正在深入研究底層硬體。

戴爾 PowerEdge XE9640

戴爾 PowerEdge XE9640

戴爾 GPU 加速伺服器系列

PowerEdge XE 系列伺服器專為需要效能和可靠性的複雜 AI 和 HPC 工作負載而建置。 這些伺服器被設計為高效能、洞察驅動且智慧。 如今,XE 伺服器系列包括 XE9680 (我們有沒有提到它是 Jordan 的最愛?)、XE9640、XE8640 和 XE8545。 所有這些伺服器之間的共同點是設計支援各種人工智慧計劃,並提供對客戶有意義的冷卻選項。

產品

目的 優勢 使用案例
XE9680 旨在透過 AI 加速增強洞察力,旨在實現最佳性能和最快的價值實現時間 透過 8 個 NVIDIA H100 或 A100 Tensor Core SXM GPU 發揮 AI 和 HPC 的極致效能 大型語言模型
智慧風冷操作(最高 35C)可最大限度地將資料轉換為結果 自然語言處理
智慧風冷操作(最高 35C)可最大限度地將資料轉換為結果 大型推薦引擎培訓
建模與仿真
數位孿生與製造
XE9640 專為推動高密度 2U 智慧液冷伺服器中的 AI 計畫而設計 透過 4 個 NVIDIA H100 Tensor Core GPU 或 4 個英特爾資料中心 Max OAM GPU 推動 AI 取得更大成果 自然語言處理
智慧液冷 CPU 和 GPU 最大限度地提高效能 大型推薦引擎培訓
透過優化電源利用效率降低 TCO 建模與仿真
人工智慧、ML/DL 物件識別培訓
XE8640 以卓越的效能驅動 AI、HPC 和分析工作負載 使用 4 個 NVIDIA H100 GPU 針對各種應用程式自動分析見解 中等資料集語言模型
風冷運轉(最高 35C)以提高電源效率 自然語言處理
透過智慧擴展選項擴大營運規模 建模與仿真
人工智慧、ML/DL 訓練與推理、影像識別
XE8545 主流AI和圖形應用效能 使用 4 個 NVIDIA A100 GPU 提升訓練和推理效能 建模和仿真,包括地震分析
風冷運行(最高 35C)可實現高效運行 人工智慧、ML/DL 訓練和推理、影像辨識和聊天機器人
透過平衡的效能功耗比解決方案降低整體擁有成本

Dell PowerEdge XE9640 – GPU 多樣性與液體冷卻

PowerEdge XE9640 由於與合作夥伴 CoolIT 的深入合作,為 GPU 和 CPU 提供直接液體冷卻 (DLC)。 這台伺服器零售了一些風扇,以確保 DRAM、儲存和 PCIe 擴充卡獲得足夠的氣流和冷卻。 也就是說,這些風扇不需要以最大轉速運行,從而節省大量電力。

Dell PowerEdge XE9640 NVIDIA H100 托盤

Dell PowerEdge XE9640 – NVIDIA GPU 托盤

PowerEdge XE9640 帶來了 GPU 多樣性,提供 4x NVIDIA NVLink 互聯 H100 SXM5 GPU 700W 模組或 4x 英特爾 XeLink 互連英特爾資料中心 GPU Max 1550 600W 開放運算平台 (OCP) 加速器模組 (OAM)。

由於 NVIDIA NVLink 和 Intel Xelink 等技術,這些 GPU 可以無縫通信,有效地池化記憶體和核心。 這對於處理記憶體一致性工作負載(例如大型語言模型(LLM))特別有用。 這種多功能性使其適用於各種人工智慧工作負載。 當然,最明顯的問題是“AMD Instinct 怎麼樣?” 戴爾不斷評估額外的 GPU 支持,但在發佈時並未在此伺服器中提供 AMD 解決方案。

Dell PowerEdge XE9640 Intel GPU 托盤

Dell PowerEdge XE9640 – 英特爾 GPU 托盤

這種 GPU 多樣性使用戶能夠滿足生成式 AI、工業模擬建模和尖端科學研究不斷增長的需求。 例如,PowerEdge XE9640 的英特爾資料中心 GPU Max 加速器功能已在德州高級運算中心 (TACC) 使用,以實現其 Stampede3超級電腦.

在密度和冷卻方面,PowerEdge XE9640 經過精心設計和設計,可有效利用機架空間,同時提高效能。 憑藉其緊湊的 2RU 配置,該伺服器為每個機架提供了令人印象深刻的 GPU 容量,從而最大限度地利用了寶貴的資料中心空間。 PowerEdge XE9640 採用 DLC,在效率和成本效益方面優於傳統風冷系統。

Dell PowerEdge XE9640 – 其餘硬件

除了「僅僅」GPU 之外,XE 系列背後的工程設計也是一流的。 我們剛剛發布了一個 XE9640和XE8640的影片回顧。 該影片提供了有關設計的詳細信息,從 XE9640 上的驅動器訪問和 DLC 管道佈線,到 XE8640 上的閉環 GPU 液體冷卻,以及所有 XE 伺服器上未來增強的路徑。 它嵌入在下面以供參考。

與 XE9640 相比,移除擋板可以輕鬆存取 NVMe 驅動器。 機箱右側的兩個插槽支援 NVMe 啟動最佳化儲存子系統 (BOSS) 驅動器,並透過 1 x M.2 SSD 包含 HWRAID 2。 如今,主儲存透過 4 個 U.2 Gen4 NVMe 驅動器提供。 由於 SSD 托盤選項支援 8 個 E3.S Gen5 NVMe 驅動器,未來版本中的數量將增加一倍。 該平台不支援 U.2 NVMe 托架的 HW RAID,儘管大多數都不需要它。 許多 GPU 盒子都利用外部的大量資料集。 在這種情況下,本地儲存不會成為這些大型資料集的主要來源。

當然,對於需要利用海量儲存陣列的人工智慧專業人士來說,伺服器後面有很好的擴展選項。 XE9640支援四個PCIe Gen5插槽,兩個半高和兩個全高。 此外,您還有一個 PCIe Gen3 OCP NIC 插槽。

戴爾 PowerEdge XE9640 正面

戴爾 PowerEdge XE9640 正面

為了消除對洩漏的擔憂,液冷伺服器在 iDRAC 中包含洩漏偵測報告。 當您深入機殼的不同部分時,戴爾檢測洩漏的方法非常令人難以置信。 例如,在下面的 CPU 冷卻板照片中,您可以在整個水塊周圍以鋸齒狀圖案辨認出細小的銅跡。 如果有水滴到這些連接上,開路迴路就會偵測到小短路,系統就會知道發生了洩漏。 底盤其他部位採用編織鋼絲繩,檢測方法類似。 這在我們的主液體分配塊的照片中可以看到,底盤前面有許多軟管。 此外,CoolIT CDU 和迴路的其餘部分還在沿途的許多點提供洩漏檢測報告。

戴爾 PowerEdge XE9640

Dell PowerEdge XE9640 洩漏偵測

順便說一句,風冷式 XE8640 和 XE9680 還包括閉環 GPU 液體冷卻,並透過 iDRAC 進行相同的洩漏檢測。

優化每個機架的功率

PowerEdge XE9640 為客戶提供了微調每機架功率利用率的機會。 每個機架有 41 個伺服器,加速計算的尖峰負載可能需要大約 12kW 的功率,利用三相配電來實現平衡效能。 為了擴大規模,資料中心可以部署容納 18、21 甚至 9640 個 PowerEdge XE54 伺服器的機架,分別實現約 81kW、95kW 和 XNUMXkW 的功率等級。 這種適應性使資料中心能夠根據特定要求優化其機架電源使用。

Dell PowerEdge XE9640 液體歧管

Dell PowerEdge XE9640 內部液體冷卻歧管

戴爾整理了各種資源,幫助客戶全面了解 PowerEdge XE9640。 這包括拆箱影片和詳細的產品評論。 拆箱影片展示了伺服器的設計和功能,為客戶提供了其功能的視覺之旅。

為了進一步強調 PowerEdge XE9640 的優勢,戴爾製作了一張資訊圖,將其與風冷同類產品進行了比較。 PowerEdge XE8640。 這張資訊圖表重點介紹了 PowerEdge XE9640 的顯著區別,特別是其液體冷卻效率和每個機架令人印象深刻的 GPU 容量。

戴爾 PowerEdge XE9640 後部

戴爾 PowerEdge XE9640 後部

最後的思考

PowerEdge XE9640 是戴爾不斷擴展的生成式人工智慧解決方案的組成部分,旨在徹底改變人工智慧工作負載並促進創新。 戴爾的生成式人工智慧解決方案結合了戴爾科技集團提供的尖端技術、創新和服務,提供更智慧、更快速的成果。 透過利用生成式人工智慧的功能,組織可以獲得新的見解、加速轉型工作並提高員工效率。

雖然 XE9680 可能仍然是我們最喜歡的戴爾 GPU 伺服器,但 XE9640 純粹是從效率和設計的角度贏得了我們的青睞。 2U機箱佔用了大量的工程量; 採用液體冷卻的資料中心顯然會傾向於使用這些節能的機殼。 四個 NVIDIA 模組本身的功耗為 2800W,因此戴爾在幫助資料中心提高機架效率和能源效率方面所做的一切都是一個巨大的飛躍。

信息圖表

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱