Supermicro AS-4125GS-TNRT 是一款 4U 風冷 GPU 伺服器,支援兩台 AMD EPYC 9004 系列 CPU、PCIe Gen5 和 8 個雙寬 GPU。
Supermicro 長期以來一直提供更多形狀和尺寸的 GPU 伺服器,我們沒有時間在本次評測中討論。 今天,我們正在研究他們相對較新的 4U 風冷 GPU 伺服器,該伺服器支援兩個 AMD EPYC 9004 系列 CPU、PCIe Gen5,以及 12 個雙寬或 4125 個單寬附加 GPU 卡的選擇。 雖然 Supermicro 也提供這些伺服器的基於 Intel 的變體,但基於 AMD 的 AS-100GS-TNRT 系列是此類伺服器中唯一支援 NVIDIA H210 和 AMD Instinct MiXNUMX GPU 的伺服器。
Supermicro AS-4125GS-TNRT GPU 伺服器還有其他一些硬體亮點,如板載10GbE 網路、外部管理、9 個FHFL PCIe Gen5 插槽、24 個2.5 吋托架,其中4 個為NVMe,其餘為SATA/ SAS。 還有 2000 個冗餘鈦金屬級 2W 電源。 主機板上有一個用於啟動的 M.XNUMX NVMe 插槽。
在我們深入探討這條路之前,還值得一提的是 Supermicro 還提供了 AS-4125GS-TNRT 伺服器配置的另外兩種變體。 雖然它們使用相同的主機板,但 AS-4125GS-TNRT1 是具有 PCIe 交換器的單插槽配置,支援最多 10 個雙寬 GPU 和 8 個 NVMe SSD 托架。 AS -4125GS-TNRT2 是一種雙處理器配置,或多或少是相同的,同樣有 PCIe 交換器。
無論配置如何,Supermicro AS-4125GS-TNRT 都具有令人難以置信的靈活性,這要歸功於其設計以及選擇具有 PCIe 交換器的型號的能力。 這種類型的 GPU 伺服器很受歡迎,因為它允許組織從小規模開始並擴展、混合和匹配 GPU 以滿足不同的需求,或做任何他們喜歡的事情。 插槽式 GPU 系統能夠更好地聚合 GPU 以處理大型 AI 工作負載,但附加卡系統在工作負載靈活性方面無可匹敵。

Supermicro AS-4125GS-TNRT,配備 SC23 的 AMD 和 NVIDIA GPU
此外,雖然這對某些人來說可能是一種褻瀆,但 Supermicro 附加卡 GPU 伺服器甚至可以與 AMD 和 NVIDIA 的卡片在同一個盒子中使用! 哎呀,如果您願意的話,但是許多客戶已經發現某些工作負載更喜歡 Instinct,而其他工作負載則喜歡 NVIDIA GPU。 最後,雖然不如塞滿 GPU 伺服器那麼受歡迎,但值得一提的是,這些插槽只是 PCIe 插槽; 可以想像,客戶可能會更喜歡該裝備中的 FPGA、DPU 或其他形式的加速器,這並非沒有道理。 同樣,靈活性是該設計的核心優勢。
出於我們的評測目的,Supermicro AS-4125GS-TNRT 是準系統,可供我們添加 CPU、DRAM、存儲,當然還有 GPU。 我們與 Supermicro 合作借用了 4 個 NVIDIA H100 GPU 進行本次評測。
美超微 AS-4125GS-TNRT 規格
產品規格 | |
中央處理器 | 雙路 SP5 CPU,每個最高 128C / 256T |
記憶體應用 | 高達 24 個 256GB 4800MHz ECC DDR5 RDIMM/LRDIMM (總記憶體 6TB) |
GPU |
|
擴展插槽 | 9 個 PCIE 5.0 x16 FHFL 插槽 |
電源供應器 | 4 個 2000W 冗餘電源 |
網路相關 | 2 個 10GbE |
儲存應用 |
|
主機板 | 超級H13DSG-O-CPU |
管理 |
|
安全性 |
|
機箱尺寸 | 4U |
Supermicro AS-4125GS-TNRT 檢視配置
我們將 Supermicro 的系統配置為準系統,儘管他們主要將其作為配置系統出售。 當它到達實驗室時,我們做的第一件事就是在其中安裝一對 AMD EPYC 9374F 32c 64t CPU。 之所以選擇它們,是因為它們具有高時脈速度和令人尊敬的多核心效能。
對於加速器,我們有相當多的選擇,從舊的 Intel Phi 協處理器到最新的 H100 PCIe 卡再到高階 RTX 6000 ada 工作站 GPU。 我們的目標是在原始運算能力與效率和多功能性之間取得平衡。 最終,我們決定從四個 NVIDIA RTX A6000 GPU 開始,然後轉向四個 NVIDIA H100 PCIe 卡進行初步測試。 這種組合展示了 Supermicro 平台的靈活性和 NVIDIA 加速卡。
RTX A6000 主要針對圖形密集型工作負載的效能而設計,憑藉其 Ampere 架構,在 AI 和 HPC 應用程式中也表現出色。 它提供 48GB GDDR6 內存,非常適合處理大型資料集和複雜的模擬。 其 10,752 個 CUDA 和 336 個 Tensor 核心可實現加速運算,這對於我們的 AI 和深度學習測試至關重要。
另一方面,NVIDIA H100 PCIe 卡是 Hopper 架構系列中最新推出的卡,主要針對 AI 工作負載而設計。 每張卡均配備令人印象深刻的 80 億個電晶體、80GB HBM3 記憶體以及專為 GPT-4 等 AI 模型量身定制的突破性 Transformer 引擎。 H100 的第四代 Tensor Core 和 DPX 指令顯著增強了 AI 推理和訓練任務。
考慮到這些高階元件會產生大量功耗和熱量,將這些 GPU 整合到我們的 Supermicro 準系統中,我們專注於確保最佳的熱管理和功率分配。 Supermicro 機殼雖然沒有正式支援這種配置,但事實證明其用途廣泛,足以適應我們的設定。 為了控制 A6000 的散熱情況,由於採用了鼠籠式風扇設計,我們必須將它們分開一個卡寬度,但 H100 可以使用直通式被動散熱片進行封裝。
我們的基準測試套件包括 HPC 和 AI 特定用例的組合。 這些範圍從傳統的基準測試工作負載到使用卷積神經網路模型的人工智慧訓練和推理任務。 我們的目標是將這些加速器推向極限,評估它們的原始效能和效率、可擴展性以及與 Supermicro A+ 伺服器整合的便利性。
Supermicro AS-4125GS-TNRT GPU 測試
當我們在實驗室中研究 CNN 基礎模型時使用 NVIDIA 的旗艦 GPU,我們首先在一對較舊但功能強大的 GPU 上進行一些工作站級訓練 RTX8000 圖形處理器。
在我們的 AI 效能分析過程中,我們觀察到功能取得了顯著且符合預期的進展,從 NVIDIA RTX 8000 轉移到四個 RTX A6000 GPU,最後轉移到四個 NVIDIA H100 PCIe 卡。 這項進展展示了這些加速器的原始能力,以及過去幾年隨著人工智慧工作負載越來越受到關注,NVIDIA 加速器的演變。
從 RTX 8000 開始,我們注意到了不錯的性能等級。 透過此設置,我們在 6.36GB 影像資料集上的 AI 模型訓練每個週期大約需要 45 分鐘。 然而,RTX 8000 在批量大小和它可以處理的任務複雜性方面的局限性是顯而易見的。 我們受限於較小的批量大小,並且受限於我們可以有效訓練的神經網路模型的複雜性。
轉向四個 RTX A6000 GPU 標誌著效能的顯著飛躍。 A6000 卓越的記憶體頻寬和更大的 GDDR6 記憶體使我們能夠將批次大小增加四倍,同時保持相同的曆元持續時間和模型複雜性。 這項改進改進了訓練過程,使我們能夠在不延長訓練時間的情況下試驗更複雜的模型。
然而,最引人注目的進步是四塊 NVIDIA H100 PCIe 卡的推出。 利用 Hopper 架構增強的人工智慧功能,這些卡片使我們能夠將批量大小再次增加一倍。 更令人印象深刻的是,我們可以顯著增加人工智慧模型的複雜性,而無需對紀元持續時間進行任何顯著變化。 此功能證明了 H100 先進的 AI 特定功能,例如 Transformer 引擎和第四代 Tensor Core,這些功能針對高效處理複雜的 AI 操作進行了最佳化。
在這些測試中,6.36GB 影像資料集和模型參數作為一致的基準,使我們能夠直接比較不同 GPU 配置的效能。 從 RTX 8000 到 A6000,再到 H100,突顯了原始處理能力和 GPU 在不影響速度或效率的情況下處理更大、更複雜的 AI 工作負載的能力的改進。 這使得這些 GPU 特別適合尖端人工智慧研究和大規模深度學習應用。
我們測試中使用的 Supermicro 伺服器具有與 CPU 的直接 PCIe 連接,無需 PCIe 交換器。 這種直接連接可確保每個 GPU 都有一條通往 CPU 的專用路徑,從而促進快速且有效率的資料傳輸。 這種架構對於AI 和HPC 中的某些工作負載至關重要,可以最大限度地減少延遲並最大限度地提高頻寬利用率,特別是在處理高吞吐量任務(例如AI 模型訓練或複雜的VDI 環境)(且所有工作都位於伺服器本地)時特別有用。
結論
Supermicro GPU A+ 伺服器 AS-4125GS-TNRT 伺服器的可擴充性和靈活性是這裡的殺手級功能。 對於需要適應不斷變化的工作負載需求的客戶尤其有利,無論是在 AI、VDI 或其他高效能任務中。 從適度的配置開始,使用者可以有效地處理入門級 AI 或 VDI 任務,為較小的工作負載或剛開始涉足 AI 和虛擬桌面基礎設施的人員提供經濟高效的解決方案。 此初始設定提供了堅實且可擴展的基礎,讓使用者參與基本但重要的 AI 和 VDI 應用程式。
此外,雖然我們知道許多企業希望利用插槽式 H100 GPU,但這些平台的等待時間太長,許多消息來源告訴我們等待時間接近一年。 供應鏈物流凸顯了該伺服器的偉大之處,它可以處理任何事情。 L40S GPU「現已」上市,因此客戶至少可以透過此組合更快地移動他們的 AI 工作負載。 隨著需求的變化,客戶可以輕鬆更換卡片。 這確保了 Supermicro GPU A+ 伺服器 AS-4125GS-TNRT 伺服器不僅能夠滿足當前需求,而且能夠面向未來,滿足不斷發展的技術環境。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱