首頁 企業 Lenovo ThinkSystem SR685a V3 與 SR680a V3 GPU 伺服器

Lenovo ThinkSystem SR685a V3 與 SR680a V3 GPU 伺服器

by 萊爾·史密斯

聯想ThinkSystem SR685a V3和SR680a V3 GPU伺服器是該公司最新的8路GPU伺服器,專為滿足多樣化的企業人工智慧需求而量身定制。

聯想ThinkSystem SR685a V3和SR680a V3 GPU伺服器是該公司最新的8路GPU伺服器,專為滿足多樣化的企業人工智慧需求而量身定制。儘管具有不同的型號名稱,但它們共享模組化基礎,允許每個系統內的組件可互換。

從根本上講,這些伺服器具有三個或四個核心組件,具體取決於您的計算方式。首先,外殼構成了機箱外殼,後部嵌入了風扇。內部導軌可將 2U 模組化伺服器固定在頂部。底部 6U 容納 GPU、交換器和 PCIe 結構。 2U 伺服器的 I/O 根據 AMD 或 Intel 產品而有所不同。聯想目前支援 NVIDIA 和 AMD GPU 板,未來將支援 Intel Guadi 3。

Lenovo SR685a V3(AI 的小寫)採用雙第四代 AMD EPYC 處理器,專門針對高頻寬 GPU 到 GPU 通訊進行了最佳化,使其成為生成式 AI 應用的理想選擇。相反,SR4a V680配備第五代英特爾至強可擴展處理器,支援多功能人工智慧和運算應用程序,可容納NVIDIA和AMD GPU,滿足不同行業的需求。兩種型號均採用創新的模組化方法,允許用戶自訂和擴展其係統,以精確地滿足特定的操作需求。

這些服務器備受追捧(儘管目前很難買到),並在去年奧斯汀舉行的聯想會議上引起了巨大反響。這些 GPU 伺服器及其提升人工智慧功能的潛力令人興奮不已。

可配置的模型和定制

Lenovo ThinkSystem SR685a V3 和 SR680a V3 系統提供各種按訂單配置 (CTO) 模型,作為客製化框架。定製配置模型的能力擴展到了 GPU 的詳細選擇,其中模型是根據所選的特定 GPU 定義的。例如,聯想配置器中列出的基本功能代碼允許在 AMD MI300X 和 NVIDIA H100/H200 之間進行選擇,每種都滿足不同的效能和運算需求。該平台設計為聯想在新加速器上市時提供了更大的靈活性。

聯想 ThinkSystem SR685a V3 規格

組件 規範
外形尺寸 8U機架
處理器 兩台 AMD EPYC 9004 系列處理器(先前的代號為「Genoa」)。支援多達 64 個核心的處理器,核心速度高達 3.1 GHz,TDP 額定值高達 400W。支援 PCIe 5.0 以實現高效能 I/O。
圖形處理器 的選擇:

  • 八個 AMD MI300X 750W OAM GPU,每個 GPU 有 192GB HBM3 GPU 內存
  • 八個 NVIDIA H100 700W SXM5 GPU,每個 GPU 具有 80GB HBM3 GPU 內存
  • 八個 NVIDIA H200 700W SXM5 GPU,每個 GPU 具有 141GB HBM3 GPU 內存
記憶體應用 24 個 DIMM 插槽,附兩個處理器(每個處理器 12 個 DIMM 插槽)。每個處理器有 12 個記憶體通道,每個通道 1 個 DIMM (DPC)。 Lenovo TruDDR5 RDIMM 支援高達 4800 MHz。
內存最大 高達 1.5TB,配備 24 個 64GB RDIMM
高達 2.25TB,配備 24 個 96GB RDIMM
內存保護 ECC、SDDC、巡檢/請求清理、有界故障、帶重放的 DRAM 地址命令奇偶校驗、DRAM 未更正的 ECC 錯誤重試、片上 ECC、ECC 錯誤檢查和清理 (ECS)、封裝後修復
磁盤驅動器托架 多達 16 個 2.5 吋熱插拔驅動器托架,支援 PCIe 5.0 NVMe 驅動器。
作業系統啟動驅動器 支援整合 RAID-2 的 M.1 適配器;支援 2 個 NVMe M.2 驅動器,用於作業系統啟動和資料儲存功能
最大內部存儲空間 51.2 TB,使用 16 個 3.2 TB 2.5 吋 NVMe SSD
存儲控制器 板載 NVMe(非 RAID)
網絡接口 它支援 8 個高效能網路適配器,連接速度高達 400 Gb/s,並支援 GPU Direct。它支援用於用戶/控制平面的 NVIDIA BlueField-3 2 連接埠 200Gb 適配器以及用於管理的 OCP 網路適配器選擇。 OCP 3.0 插槽具有 PCIe 5.0 x16 主機接口,其中一個連接埠可選擇與 XClarity Controller 2 (XCC2) 管理處理器共用,以支援 LAN 喚醒和 NC-SI。
PCI 擴展插槽 10 個 PCIe 5.0 x16 插槽:

  • 正面:8 個 PCIe 5.0 x16 FHHL 插槽,支援 GPU Direct
  • 後置:1x PCIe 5.0 x16 FHHL 插槽 + 1x OCP 3.0 插槽,附 PCIe 5.0 x16 接口
連接埠數量 正面:1x USB 3.2 G1 (5 Gb/s) 連接埠、1x USB 2.0 連接埠(也用於 XCC 本機管理)、1x VGA 視訊連接埠。
背面:3 個 USB 3.2 G1 (5 Gb/s) 連接埠、1 個 VGA 視訊連接埠、1 個 RJ-45 1GbE 系統管理端口,用於 XCC 遠端管理。
散熱 5 個前置雙轉子風扇,用於 CPU 和儲存子系統,N+1 冗餘。 GPU子系統10個後置雙轉子風扇,N+1冗餘。每個電源供應器中都整合了一個風扇。從前到後的氣流。
電源 八個熱插拔冗餘交流電源,冗餘程度高達 N+N。 80PLUS鈦金認證。 2600 W 交流電源需要 220 V 交流電源。
視頻資料 XClarity 控制器中整合了具有 16 MB 記憶體的嵌入式視訊圖形和 2D 硬體加速器。兩個視訊連接埠(前置VGA和後置VGA)不能同時使用;使用前置 VGA 連接埠會停用後置 VGA 連接埠。最高解析度為 1920×1200 32bpp @ 60Hz。
熱插拔零件 驅動器、電源和風扇。
系統管理 帶有狀態 LED 和抽拉式 LCD 顯示器的整合診斷面板。 XClarity Controller 2 (XCC2) 基於 ASPEED AST2600 基板管理控制器 (BMC) 的嵌入式管理。用於 XCC2 遠端存取管理的專用後部乙太網路連接埠。用於集中式基礎架構管理的 XClarity Administrator、XClarity Integrator 外掛程式和 XClarity Energy Manager 集中式伺服器電源管理。選購的 XCC Platinum 將啟用遠端控制功能和其他功能。
安全特性 開機密碼、管理員密碼、支援 TPM 2.0 的信任根模組和平台韌體彈性 (PFR)。
支持的操作系統 Ubuntu 服務器。
有限保修 三年或一年(取決於型號)客戶可更換單元和現場有限保修,下一工作日 9×5 (NBD)。
服務與支持 可選服務升級可通過聯想服務獲得:4 小時或 2 小時響應時間、6 小時修復時間、1 年或 2 年保修延期、聯想硬件的軟件支持以及一些第三方應用程序。
尺寸 寬度:447 毫米(17.6 英寸),高度:351 毫米(13.8 英寸),深度:924 毫米(36.3 英寸)。
重量 最大:108.9 千克(240 磅)

聯想 ThinkSystem SR680a V3 規格 

組件 規範
外形尺寸 8U機架
處理器 兩個第五代英特爾至強可擴充處理器(以前的代號為“Emerald Rapids”)。支援5核心處理器,核心速度48GHz,TDP額定值2.3W。支援 PCIe 350 以實現高效能 I/O。
芯片組 Intel C741「Emmitsburg」晶片組,代號「Eagle Stream」平台的一部分
圖形處理器 的選擇:

  • 八個 AMD MI300X 750W OAM GPU,每個 GPU 有 192GB HBM3 GPU 內存
  • 八個 NVIDIA H100 700W SXM5 GPU,每個 GPU 具有 80GB HBM3 GPU 內存
  • 八個 NVIDIA H200 700W SXM5 GPU,每個 GPU 具有 141GB HBM3 GPU 內存
記憶體應用 32 個 DIMM 插槽,附兩個處理器(每個處理器 16 個 DIMM 插槽)。每個處理器有 8 個記憶體通道,每個通道有 2 個 DIMM (DPC)。支援 Lenovo TruDDR5 RDIMM。 DIMM 在 5600 DPC 時運作頻率高達 1 MHz,在 4400 DPC 時運作頻率高達 2 MHz。
內存最大 高達 2TB,配備 32 個 64GB RDIMM
內存保護 ECC、SDDC(適用於基於 x4 的記憶體 DIMM)、ADDDC(適用於基於 x4 的記憶體 DIMM,不包括 9×4 RDIMM,需要白金或金牌處理器)和記憶體鏡像。
磁盤驅動器托架 多達 16 個 2.5 吋熱插拔驅動器托架,支援 PCIe 5.0 NVMe 驅動器。
作業系統啟動驅動器 支援兩個 M.2 驅動器,可選 Intel VROC NVMe RAID 支援作業系統啟動和資料儲存功能
最大內部存儲空間 51.2 TB,使用 16 個 3.2 TB 2.5 吋 NVMe SSD
存儲控制器 板載 NVMe(非 RAID)
網絡接口 支援 8 個高效能網路適配器,連接速度高達 400 Gb/s,並支援 GPU Direct。支援用於使用者/控制平面的 NVIDIA BlueField-3 2 連接埠 200Gb 適配器和用於管理的 Mellanox ConnectX-6 Lx 2 連接埠 10/25GbE 適配器。
PCI 擴展插槽 10 個 PCIe 5.0 x16 插槽:

  • 正面:8 個 PCIe 5.0 x16 FHHL 插槽,支援 GPU Direct
  • 背面:2 個 PCIe 5.0 x16 FHHL 插槽
連接埠數量 正面:1x USB 3.2 G1 (5 Gb/s) 連接埠、1x USB 2.0 連接埠(也用於 XCC 本機管理)、1x Mini DisplayPort 視訊連接埠。
背面:2 個 USB 3.2 G1 (5 Gb/s) 連接埠、1 個 VGA 視訊連接埠、1 個 RJ-45 1GbE 系統管理端口,用於 XCC 遠端管理。
散熱 5 個前置雙轉子風扇,用於 CPU 和儲存子系統,N+1 冗餘。 GPU子系統10個後置雙轉子風扇,N+1冗餘。每個電源供應器中都整合了一個風扇。從前到後的氣流。
電源 八個熱插拔冗餘交流電源,冗餘程度高達 N+N。 80PLUS鈦金認證。 2600 W 交流電源需要 220 V 交流電源。
視頻資料 XClarity Controller 16 管理控制器中整合了具有 2 MB 記憶體的嵌入式顯示卡和 2D 硬體加速器。兩個視訊連接埠(前置 Mini DisplayPort 和後置 VGA);如果需要,兩者可以同時使用。兩個連接埠的最大解析度均為 1920×1200(60Hz)。
熱插拔零件 驅動器、電源和風扇。
系統管理 帶有狀態 LED 和抽拉式 LCD 顯示器的整合診斷面板。 XClarity Controller 2 (XCC2) 基於 ASPEED AST2600 基板管理控制器 (BMC) 的嵌入式管理。用於 XCC2 遠端存取管理的專用後部乙太網路連接埠。用於集中式基礎架構管理的 XClarity Administrator、XClarity Integrator 外掛程式和 XClarity Energy Manager 集中式伺服器電源管理。選購的 XCC Platinum 可實現遠端控制功能和其他功能。
安全特性 開機密碼、管理員密碼、支援 TPM 2.0 的信任根模組和平台韌體彈性 (PFR)。
支持的操作系統 Ubuntu 服務器。
有限保修 三年或一年(取決於型號)客戶可更換單元和現場有限保修,下一工作日 9×5 (NBD)。
服務與支持 可選服務升級可通過聯想服務獲得:4 小時或 2 小時響應時間、6 小時修復時間、1 年或 2 年保修延期、聯想硬件的軟件支持以及一些第三方應用程序。
尺寸 寬度:447 毫米(17.6 英寸),高度:351 毫米(13.8 英寸),深度:924 毫米(36.3 英寸)。
重量 最大:108.7 千克(239.8 磅)

Lenovo ThinkSystem SR685a V3 和 SR680a V3 設計與建造

系統前端支援多達 16 個熱插拔 PCIe Gen5 NVMe 驅動器托架,這對於以 GPU 為中心的伺服器來說異常慷慨,這些伺服器通常提供較少的托架和通道進行擴展。驅動器托架下方是八個可從前端存取的 PCIe Gen5 FHHL(全高、半長)插槽和 PCIe 交換複合體。這些插槽配備了 GPU Direct 技術(400 個 NDR XNUMXGb/s InfiniBand 適配器),可實現高速網路和資料傳輸,從而減​​少延遲並提高資料處理速度。

該系統在機箱頂部裝有五個熱插拔風扇,旨在冷卻伺服器,該伺服器佔據頂部 2U,包括 CPU、記憶體和後插槽。機殼後部還安裝了十個風扇,用於冷卻驅動器托架、適配器和 GPU。

前面板還配有必要的連接和管理端口,包括三個 USB 3.2 Gen1 端口和一個視訊輸出,有助於直接管理和本地控制台互動。

後部同樣配備齊全,包括2U伺服器擴充功能。 AMD 變體提供一個 PCIe Gen5 x16 FHHL 插槽以及一個配備 PCIe Gen3.0 x5 介面的 OCP 16 插槽。相反,Intel 型號有兩個 PCIe Gen5 x16 FHHL 插槽。 OCP 3.0 插槽可容納符合開放標準的各種適配器卡,從而提供了網路和加速選項的多功能性。可安裝 NVIDIA BlueField-3 DPU 適配器來啟用軟體定義、硬體加速的 IT 基礎設施,從而優化網路和安全等各種 IT 營運。

GPU 單元的後部裝有八個 2,600W 電源,每個電源都連接到中央配電板。該設置包括板背面的連接器(聯想將其稱為“盲配”),可促進與 2U 計算梭的無縫連接。

此外,如上所述,後視圖揭示了伺服器的廣泛冷卻系統,包括十個熱插拔後風扇,旨在保持 GPU、交換器和 PCIe 結構的最佳熱條件。此冷卻系統對於維持硬體效能穩定性和使用壽命至關重要,尤其是在連續高負載運行期間。

電源、佈線和開關

此伺服器系列的 AMD 和 Intel 版本共享共同的電源佈局,從而實現更大的模組化,這是這些系統的主要亮點。

PCIe 訊號透過帶狀電纜傳輸,將計算底座連接到 PCIe 交換底座。在計算底座的另一側,有一個盲連接。計算底座與這些連接器配合,將 PCIe 訊號傳遞到機箱的其餘部分。底座背面的支架(標有其指定的 PCIe 連接)可讓您在計算梭之間進行更改,而無需更改伺服器的底部。

PCIe 交換板包括四個由 PCIe 插槽包圍的 Broadcom 交換機,可讓伺服器連接到高速網路結構。此外,還有八個 MCIO 電纜連接器連接到主機板。頂部較小的 PCIe 連接器指定用於前置 NVMe SSD 的驅動器背板。

記憶體和內部存儲

AMD 運算支援多達 24 個 DDR5 記憶體 DIMM,每個處理器透過 12 個記憶體通道與 12 個 DIMM 連接,讓每個通道配置一個 DIMM。這些 DIMM 的運行速度為 4800 MHz,提高了整體記憶體吞吐量和效率。根據配置的不同,伺服器可支援使用 1.5 個 24GB RDIMM 的 64TB 系統內存或使用 2.25 個 24GB RDIMM 的 96TB 系統內存,從而為內存要求最高的任務提供充足的容量。

英特爾計算 (SR680a V3) 採用 Lenovo TruDDR5 內存,運行速度高達 5600 MHz。它還支援比 AMD 更高的容量,在兩個處理器上支援多達 32 個 DIMM,利用 8 個記憶體通道支援每通道 2 個 DIMM (DPC)。根據記憶體配置,伺服器可使用 2 個 32GB RDIMM 支援高達 64TB 的系統記憶體。

DIMM 的運行速度會根據每個通道的DIMM 數量而有所不同:每個通道1 個DIMM 時,記憶體的運行速度最高可達5600 MHz,而每個通道2 個DIMM 的配置運行速度最高可達4400 MHz 。這種靈活的速度調整有助於根據特定的記憶體負載和配置優化效能。

此外,該伺服器在具有整合 RAID 功能的 M.2 適配器上容納兩個 M.2 NVMe 驅動器,非常適合作業系統啟動過程和快速資料存取。

AMD 和 NVIDIA GPU 板

NVIDIA H100/H200 主機板緊密整合了 3 個 NVIDIA GPU,並配有可伸縮手柄,使搬運和安裝主機板變得更加輕鬆。安裝後,手把會整齊地塞在 GPU 旁邊,以避免阻塞。 AMD 和 NVIDIA 主機板之間的連接器是相同的。 Intel Gaudi XNUMX 主機板將有不同的連接器。

AMD MI300 主機板與 NVIDIA 主機板類似,但有一個明顯突出的標準手把。雖然仍然有用,但它不如 NVIDIA 主機板上的可伸縮手柄那麼優雅。客戶不會在意任何一種方式,因此我們添加了腳註,因為設計差異引起了我們的注意。

最後的思考

Lenovo ThinkSystem SR685a V3 和 SR680a V3 GPU 伺服器提供令人印象深刻的模組化性,支援強大的 NVIDIA H100/H200 和 AMD MI300X GPU,以及 AMD EPYC 9004 和 5th Gen Xeon Intel CPU。這種靈活性和風冷設計使它們能夠輕鬆整合到現有的生態系統中。這些伺服器還支援比典型 GPU 伺服器更多的儲存空間(透過 16 個熱插拔 PCIe Gen5 NVMe 驅動器托架),從而增強了其執行資料密集型任務的實用性。此外,採用聯想的 XClarity 進行管理可確保簡化操作和監控,進一步簡化複雜基礎架構的管理。

儘管沒有進行效能測試,這些伺服器的設計還是非常出色的。模組化架構讓聯想能夠輕鬆為客戶提供 AMD 和 NVIDIA GPU,以及英特爾或 AMD 電腦伺服器。透過更多 GPU 支援(例如 Intel Guadi 3 和 NVIDIA B200),聯想可以讓客戶混合搭配運算和 GPU 元件,以針對特定應用程式調整伺服器。

總體而言,這些伺服器經過深思熟慮,我們期待使用它們進行實際操作;喬丹一直焦急地撫著鬍子,滿懷期待。雖然我們目前正在開發一個使用配備四個 NVIDIA L675S GPU 的 Lenovo SR3 v40 的項目,但這些 8 路伺服器是不同的動物,並且具有廣泛的 AI 用例。不過,這是一個很好的提醒,聯想為每個人提供了一個人工智慧平台。

聯想 GPU 伺服器

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱