Dell PowerEdge XE9680 是企業運算創新的證明,為客戶提供終極的 GPU 彈性。
PowerEdge XE9680 代表了戴爾迄今為止最通用的人工智慧基礎設施平台。它將 PowerEdge R760 式 2U 運算節點與大型 4U GPU 抽屜結合在一起。這種創新的 6U 設計將戴爾最好的企業伺服器工程與前所未有的 GPU 密度和靈活性相結合。
XE9680 的核心支援雙 Intel Xeon 可擴充處理器,可選擇每個 CPU 最多 5 個核心的第五代處理器或最多 64 個核心的第四代處理器。內存容量龐大,透過 4 個 DIMM 插槽支援高達 56TB 的 DDR4 內存,使用最新處理器時運行速度高達 5 MT/s。
XE9680 真正與眾不同的是它的 GPU 功能。該平台支援八個高性能 GPU。可用配置包括 NVIDIA 的 HGX H200 (141GB) 和 H100 (80GB)、AMD 的 Instinct MI300X (192GB) 和英特爾的 Gaudi3 (128GB)。新推出的 XE9680L 該變體支援 NVIDIA 的下一代 B200 GPU 和直接液體冷卻,突破了密度和性能的極限。
儲存配置同樣靈活,提供 8 個 2.5 吋 NVMe/SAS/SATA 硬碟或 16 個 E3.S NVMe 硬碟。該系統可配備戴爾的 H965i NVMe PERC RAID 卡,簡化儲存冗餘,這對於推理工作負載期間的大型 KV 快取至關重要。
電力傳輸經過精心設計,可實現最大可靠性。六個電源總計 19200W,採用 3+3 容錯冗餘 (FTR) 佈置。當兩個或多個 PSU 發生故障時,系統進入容錯冗餘模式而不是關閉。在此模式下,GPU 功率煞車將被激活,將 GPU 時脈節流至四分之一,產生大約典型 GPU 性能的五分之一。
這種深思熟慮的設計選擇在數百或數千個 GPU 協同工作的大規模訓練環境中非常寶貴。系統可以繼續以降低的效能運行,直到下一個維護窗口,而不是讓一個節點完全離線(這將需要重新安排並在另一個節點上重複訓練迭代)。對電源管理細節的關注有助於透過最大限度地減少中斷來維持高模型訓練吞吐量 (MFU)。
擴充能力非常廣泛,擁有多達 10 個 PCIe Gen5 x16 全高、半長插槽,其中兩個支援超過 75W 的更高功率卡。豐富的 PCIe 連線支援各種網路配置,包括 DPU 和 SmartNIC,這對於建立現代人工智慧基礎架構至關重要。
完整規格:
規範 | 更多資訊 |
---|---|
處理器 | 最多兩個第五代 Intel® Xeon® 可擴充處理器(每個 CPU 5 核心) 最多兩個第五代 Intel® Xeon® 可擴充處理器(每個 CPU 4 核心) |
GPU 選項 | XE9680: – NVIDIA HGX H200 (141GB) SXM5 700W – NVIDIA HGX H100 (80GB) SXM5 700W – AMD Instinct MI300X (192GB) OAM 750W – 英特爾 Gaudi3 (128GB) OAM 900W |
記憶體應用 | 32個DIMM插槽 5600 MT/s(第五代) 4800 MT/s(第五代) |
儲存應用 | 前驅動器托架: 8 個 2.5 吋 NVMe/SAS/SATA(最大 122.88TB) 16 個 E3.S NVMe(最大 122.88TB) |
存儲控制器 | 內部控制器: PERC H965i(Intel Gaudi3 不支援)內部導引: 啟動最佳化儲存子系統 (NVMe BOSS-N1):HWRAID 1、2 x M.2 SSD |
PCIE插槽 | PCIe 插槽多達 10 個 PCIe Gen5 x16 插槽 (8 個插槽,配備 Intel Gaudi3) |
網絡 | 1x OCP 3.0(可選) 2 個 1GbE LOM |
電源供應器 | 3200W 鈦金 (277 VAC) 2800W 鈦金 (200-240 VAC) |
尺寸 | 高度:10.36“(263.20mm) 寬度:18.97“(482.00mm) 深度:39.71 吋(1008.77 公釐),附邊框 |
重量 | 最多 251.44 磅(114.05 公斤) |
外形 | 6U機架式服務器 |
管理 | 嵌入式/伺服器端: iDRAC9 iDRAC 直接 iDRAC RESTful API 與 RedfishiDRAC Service Module 控制台: CloudIQ for PowerEdge 插件 開放管理企業 OpenManage 電源管理器插件 OpenManage 服務插件 OpenManage 更新管理器外掛程式工具: 戴爾系統更新 戴爾存儲庫管理器 企業目錄 帶有 Redfish 的 iDRAC RESTful API 智能製造管理接口 RACADM CLIOpenManageIntegrations: BMC真視 OpenManage 與 ServiceNow 集成 |
安全性 | 密碼簽名的固件 靜態數據加密(具有本地或外部密鑰管理的 SED) 安全啟動 安全組件驗證(硬件完整性檢查) 安全擦除 矽信任根 系統鎖定(需要 iDRAC9 Enterprise 或 Datacenter) |
散熱 | 風冷 |
Dell PowerEdge XE9680 建置與設計
PowerEdge XE9680 是一款令人印象深刻的硬件,連接邊框後尺寸為:高 10.36 英寸(263.20 毫米)、寬 18.97 英寸(482.00 毫米)、深 39.71 英寸(1008.77 毫米)。滿載時,重量為 251.44 磅(114.05 公斤)。 GPU 選擇將在重量方面擁有最終決定權,NVIDIA H100/H200 型號的重量為 238 磅,而 AMD MI300X 型號的重量為 251 磅。
這是第一台需要仔細考慮才能正確載入到我們的測試環境中的伺服器。當您考慮伺服器重量和機架硬體所需的人員數量時,有一些超出界限的迴旋餘地,但在某個時刻,一兩個人無法單獨舉起它。戴爾很友善地為您提供了一個“升降台”,以幫助您了解平台如何適應。 Kevin 親自將 XE9680 安裝到機架上.
底盤重量 | 產品描述 |
---|---|
40 磅 – 70 磅 | 建議兩人抬。 |
70 磅 – 120 磅 | 建議三人抬。 |
≥121磅 | 需要伺服器升降機。 |
儘管 XE9680 很複雜且戴爾建議專業服務技術人員使用,但 XEXNUMX 仍具有非常用戶友好的服務元素。伺服器面板包含詳細的服務說明和清晰的圖形,使經驗豐富的 IT 人員能夠輕鬆掌握維護程序。在我們實際作業系統的過程中,這些視覺指南被證明是非常寶貴的,使我們能夠自信地維修各種組件。
打開PowerEdge XE9680的蓋子後,一旦你穿過頂部小型變電站的眾多電源線,它看起來很像PowerEdge R760。我們的設備由兩個 Intel Xeon Platinum 8468 處理器提供動力,每個處理器都有 48 個 2.1Ghz 核心。每個處理器提供 80 個 PCIe 通道,這些通道流經該單元中的相當多的 PCIe 交換機,以支援加載到 XE9680 中的 GPU、NIC 和其他硬體。
最令人印象深刻的工程特性之一是 PCIe 交換板 (PSB) 設計。這些板可為最多 10 個額外的全高、半長 PCIe 卡(其中兩個功耗可超過 75W)提供連接,並直接與 GPU 基板整合。這種直接整合支援 GPU 直接技術,讓 SSD 和網路卡直接與 GPU 通信,繞過 CPU 並減少 I/O 密集型 AI 工作負載的延遲。
每個擴充插槽都支援完整的 PCIe Gen5 x16 接口,包括佈局最左側和右側的兩個下部插槽。上面的八個插槽透過自己的 PSB 連接,而下面的兩個插槽直接連接到 PCIe 基板 (PBB)。這兩個插槽還支援高功率抽卡。此外,應該注意的是,根據 PowerEdge XE9680 所選的 GPU 類型,PCIe 佈局略有不同。配備 AMD 的型號不支援 SmartNIC/DPU,而 Intel Gaudi3 型號則因氣流問題而有兩個插槽被堵塞。
冷卻是戴爾工程專業知識的另一個亮點領域。該系統採用多達 16 個高性能金牌風扇,其中 9680 個位於中間托盤,10 個位於後部。 PowerEdge XE35 支援多種安裝場景,環境溫度範圍為 30 至 3°C(Intel Gaudi1,200 GPU 為 XNUMX°C)。全速運轉時,伺服器將令人印象深刻的 XNUMXCFM 移入熱通道。
這款強大的冷卻解決方案甚至可以處理最嚴苛的熱負載,包括 AMD MI300X、Intel Gaudi3 或 NVIDIA H100 GPU,同時保持最佳工作溫度。 PowerEdge XE9680 在負載下的雜訊輸出表現相當不錯。戴爾提供了 XE9680 在不同情況下的完整聲學規格表,但很容易說它將是一個負載下聲音很大的平台。
管理
XE9680 的管理功能是基於戴爾經過企業驗證的 iDRAC9 構建,可提供全面的伺服器生命週期管理和監控。 iDRAC 的這個迭代帶來了多項 AI 優化功能,包括詳細的 GPU 遙測、功耗分析以及專為高密度 AI 工作負載設計的廣泛熱監控。
該平台的管理堆疊對於人工智慧基礎設施部署尤其值得注意。透過 iDRAC9 的 RESTful API 和 Redfish 支持,組織可以以程式方式監控和管理 GPU 利用率、記憶體頻寬和熱條件,這是維持最佳 AI 訓練和推理效能的關鍵指標。該系統與 OpenManage Enterprise 集成,可透過統一控制台對多個 XE9680 進行全車隊管理,這對於大規模 AI 叢集至關重要。
安全性和合規性是管理架構的基本要素。該平台實施矽信任根和安全組件驗證,確保從啟動到操作的硬體完整性。在運行敏感的人工智慧工作負載或處理專有模型權重時,這些功能尤其有價值。
由 CloudIQ 整合提供支援的預測性故障分析功能使用機器學習在潛在的硬體問題影響工作負載之前對其進行預測。這種主動方法對於長時間運行的人工智慧訓練作業尤其重要,其中意外停機可能會導致數天的計算遺失。當與戴爾的 ProSupport Plus 服務結合使用時,此預測功能會觸發自動案例建立和零件調度,通常會在系統效能下降之前進行預防性維護。
對於需要與現有管理工具整合的組織,XE9680 透過 OpenManage 整合支援各種管理框架,包括 ServiceNow 和 BMC TrueSight,從而允許無縫合併到已建立的 IT 服務管理工作流程中。
iDRAC9 介面透過直覺的儀表板提供關鍵組件的詳細即時監控。 GPU 監控顯示全面的指標,包括所有八個加速器的溫度、功耗和利用率,這對於優化 AI 工作負載分配至關重要。
儲存監控介面可以即時查看整個 NVMe 陣列中的磁碟機運作狀況、溫度和效能指標,這在管理高吞吐量推理快取和訓練資料集時特別有價值。
記憶體、儲存和規模
Dell PowerEdge XE300 內的 9680 個 AMD MI192X GPU 代表了 GPU 內存容量的顯著飛躍,每張卡提供 3GB 的 HBM200 內存,而 NVIDIA H141 為 36GB。記憶體容量增加 XNUMX% 不僅僅是規格表上的數字,它對於大型語言模型部署至關重要。
這個巨大的記憶體池,加上 MI300X 的 5.3 TB/s 記憶體頻寬,使組織能夠運行較小模型的多個實例或跨 GPU 分區較大模型,同時保持高吞吐量和低延遲。
從長遠來看,Meta 的 Llama 3.1 405B 模型(在 BF1 中需要超過 16TB 的 VRAM)可以輕鬆地分佈在具有 MI9680X GPU 的單個 XE300 上,無需量化和完整的 128k 上下文長度。與將模型分佈在兩台伺服器上相比,這消除了與量化技術相關的潛在品質損失,並允許更多的令牌/秒。
為了最大化我們的儲存空間,我們使用了 固態61.44TB 驅動器作為記憶體的複雜擴展,彌合了高速 GPU 記憶體和傳統儲存之間的差距。 SSD 擅長在推理期間儲存鍵值快取對,有效擴展 GPU 的記憶體容量以進行長上下文生成。其龐大的容量和 NVMe 性能使其成為快速模型權重存取的理想選擇,從而實現高效的模型切換和熱啟動。
在我們下面詳細介紹的 Metrum AI 部署等應用中,SSD 承擔著向量資料庫儲存後端的雙重職責,提供即時相似性搜尋所需的效能,同時保持廣泛的嵌入儲存的容量。
這些大容量驅動器的價值不僅限於推理訓練工作流程。它們為排隊訓練批次提供理想的本地存儲,透過使數據更接近計算資源來減少網路開銷。在訓練期間,這些驅動器擅長在本地儲存模型檢查點,這對於保持訓練進度和實現快速恢復至關重要。這種本地儲存策略還可以透過減少每個處理層和批次後的即時網路流量來幫助優化網路利用率。
雖然 XE61.44 的 9680 個托架的 XNUMXTB 容量聽起來很有希望,但未來還會有更多容量。和 Solidigm 新發布的 122.88TB 硬碟,XE 中的儲存密度可以加倍至近 PB,以實現進一步的訓練優化和更長壽命的推理快取。
Metrum AI 醫療助理 – 徹底改變病患護理
醫療保健行業始終面臨著管理耗時的患者文件和記錄管理的挑戰,這往往會影響對患者的直接護理。 Metrum AI 的醫療保健助理部署在配備 AMD 加速器的 Dell PowerEdge XE9680 伺服器上,舉例說明了先進的 AI 基礎設施如何改變醫療保健工作流程、提高效率並改善患者治療結果。
該系統使用 Llama 3.1 70B Instruct 作為其主要語言模型,該模型以其對醫學背景的理解而聞名。這使得它能夠輕鬆處理複雜的患者數據。此語言模型與 gte-v1.5 嵌入模型和 Milvus Vector DB 配合使用,為自然語言處理和處理醫療資料所必需的上下文理解提供了堅實的基礎。
Metrum AI 的醫療保健助理還包括一種多模式方法,結合了用於組織病理學圖像分析的 HistoGPT 和用於即時轉錄醫生筆記的 OpenAI 的 Whisper。這些模型共同簡化了臨床工作流程,使醫生能夠自然地說話,同時系統即時轉錄、分類資訊並將其整合到患者記錄中。
Metrum AI 意識到,儘管患者個人資料可能相對較小,但高流量醫院的綜合儲存需求可能會上升到數百 TB。 Dell PowerEdge XE9680 可以透過其本地板載 NVMe 儲存解決此問題。我們的配置提供八個以 PCIe Gen2.5 速度運行的 2 吋 U.4 NVMe 儲存託架。當我們測試 XE9680 時 61.44TB Soldigim D5-P5336 QLC 固態硬碟,這種容量還可以進一步擴展。 Soldigim 最近推出了他們的新產品 D5-P5336 122.88TB QLC型號,這使得本已龐大的 SSD 的容量翻倍,同時保持相同的性能。
Metrum 提供了患者數據在不同場景下如何隨時間變化的估計。當您計算出總儲存容量時,您可以看到一個單元可以使用最高容量的 SSD 支援多少個額外患者。根據每位患者的估計數據佔用量並對照每個SSD 的可用容量(57TB SSD 為61TB,114TB SSD 為122TB),我們可以看到,擁有密集的SSD 可以以有意義的方式極大地增加伺服器上的儲存容量每年。
每位患者的年度總估算 | 筆記 | 預計儲存空間 | 每 61TB SSD 的患者數 | 每 122TB SSD 的患者數 |
---|---|---|---|---|
增強的儲存需求(DICOM 影像/變體、增強、處理副本、音訊轉錄、詳細記錄) | 包括多個影像副本、音訊轉錄和記錄 | ~8.4 GB | 6,786 | 13,571 |
高儲存場景(處理量大、存取頻繁) | 訪問頻繁,影像處理要求高 | ~10.5 GB | 5,428 | 10,857 |
雖然最初的 1 年估計似乎相當高,但值得注意的是,患者數據並不是靜態的。您將捕獲新的數據並安排新的訪問,從而增加儲存需求。這就是儲存在醫學影像領域發揮重要作用的地方。額外的儲存容量直接影響解決方案可以有效支援的患者數量。
每位患者 10 年總存儲量估計 | 筆記 | 預計儲存空間 | 每 61TB SSD 的患者數 | 每 122TB SSD 的患者數 |
---|---|---|---|---|
增強場景(多份副本、詳細記錄、音訊、增強) | 擴展記錄、頻繁成像和處理 | ~84 GB | 679 | 1,357 |
高場景(重處理、綜合歷史) | 最大處理和儲存需求超過10年 | ~105 GB | 543 | 1,086 |
Dell PowerEdge XE9680 配備 AMD MI300X 加速器並與 Metrum AI 的醫療保健助理集成,為醫療保健提供者提供可擴展且高效的解決方案。透過自動化耗時的任務並快速獲得關鍵見解,這種設置使臨床醫生能夠更多地關注患者護理,同時管理不斷增長的需求。透過跨語言、影像和語音方式無縫整合人工智慧組件,醫療助理代表了人工智慧驅動的醫療解決方案的重大進步,減少了管理負擔並改善了患者的整體治療結果。
結論
在不斷發展的企業人工智慧領域,Dell PowerEdge XE9680 樹立了新標準,展示了專用硬體如何徹底改變各個行業。 Metrum AI 醫療保健助理的實施展示了無數可能性之一- 想像一下金融機構實時運行複雜的風險分析模型或研究實驗室處理用於藥物發現的大量數據集,所有這些都由這個卓越的系統提供支持。
XE9680 在 GPU 選項方面提供了卓越的多功能性,從 NVIDIA 的 H100s 到 AMD 的 MI300X 和英特爾的 Gaudi3。這種靈活性,再加上強大的記憶體容量、儲存選項和創新的冷卻解決方案,使其不僅僅是一個人工智慧伺服器,它還是一個完整的企業運算平台,能夠處理各種應用程式(無論是在資料中心)中最苛刻的工作負載或醫療辦公室。
從儲存角度來看,該伺服器只有 61.44 個 NVMe 托架,但藉助 Solidigm,我們可以使用其 5TB SSD 為系統提供近半 PB 的空間,作為我們上面詳細介紹的醫療保健助理的工作空間。如果這還不夠,Solidigm 剛剛宣布他們已將D5336-P122.88 的容量增加了一倍,達到XNUMXTB,這意味著這樣的系統可以在其加速器附近容納大約PB 的閃存存儲,從而實現高效的AI 工作負載。
從周到的電源管理功能到用戶友好的可維護性,戴爾的工程設計在 XE9680 的各個方面都表現出色。該平台即使在部分電源故障期間也能維持運行,這表明戴爾對人工智慧要求的深刻理解,其中系統可靠性和連續運行至關重要。
PowerEdge XE9680 獲得戴爾全面支援基礎設施的支持,並致力於透過各種措施提升人工智慧功能,PowerEdge XE2024 是企業運算創新的證明。由於其原始運算能力、架構靈活性和企業級可靠性的結合,它再次獲得了 XNUMX 年最佳獎。
參與 StorageReview
電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱
這篇評論由 Kevin O'Brien 和 Divyansh Jain 共同撰寫