首頁 企業 ThinkSystem SR670 V2 鞏固了聯想在 HPC 領域的領先地位

ThinkSystem SR670 V2 鞏固了聯想在 HPC 領域的領先地位

by 布賴恩·比勒

聯想在為高性能計算 (HPC) 市場提供解決方案方面一直處於領先地位。 聯想的主流產品為最終用戶和數據中心管理員所熟知,但聯想的 HPC 實力也許是他們保守得最好的秘密。 好吧,秘密就在於成為全球最大的超級計算機供應商(根據維護的數據,其中 32% TOP 500).

聯想在為高性能計算 (HPC) 市場提供解決方案方面一直處於領先地位。 聯想的主流產品為最終用戶和數據中心管理員所熟知,但聯想的 HPC 實力也許是他們保守得最好的秘密。 好吧,秘密就在於成為全球最大的超級計算機供應商(根據維護的數據,其中 32% TOP 500).

從根本上說,聯想對 HPC 領域的深刻理解以及抓住機會滿足客戶需求的意願推動了這些巨大的 HPC 勝利。 這種冒險精神究竟是如何轉化的? 嗯,大約十年前,聯想 交付液冷超級計算機 到德國慕尼黑的萊布尼茨超級計算中心。 這一事件幫助改變了超級計算的經濟狀況,尤其是在歐洲這樣的地方,機架空間、冷卻和電力都非常寶貴。

聯想ThinkSystem SR670 V2

聯想ThinkSystem SR670 V2

儘管從那時起超級計算領域發生了很大變化,但聯想仍在不斷創新。 2018年夏天,聯想正式推出 Neptune,展示了其通過液體冷卻實現更高效數據中心的願景。 通過將 ThinkSystem SD650 推向市場,聯想向 HPC 客戶展示了對 1U 托盤中的組件進行液體冷卻是多麼容易,每個托盤支持 2 個 DWX(Neptune 直接水冷)節點。 NeXtScale n1200 機箱 (6U) 最多支持六個托盤。 兩年後,聯想推出了 SD650-N V2、液冷、Ice Lake CPU、插槽式 GPU、DRAM、存儲和 I/O 模塊。 在 ThinkSystem SR2 V670 中實施液空 (L2A) 熱交換器是聯想正向工程的一個示例。

ThinkSystem SR670 V2 內飾

聯想 ThinkSystem SD650 V2 配備 Neptune™ 液冷技術

誰需要 HPC 系統?

憑藉處理能力、存儲創新和內存方面的純粹性能改進,誰還需要所有這些功能?

各種規模的企業都在尋找更有效的方法來收集和分析數據,以從網絡中的多個不同資源中提取情報。 特別是專注於分子生物學、金融、全球氣候變化跟踪、快速基因分析和地震成像等計算密集型項目的企業。 HPC 也得到了更廣泛領域組織的關注,例如那些尋求市場優勢並願意投資影響生產力和增長的技術的公司。 HPC 和 AI 作為前面提到的應用程序的基礎,正變得越來越緊密,為組織利用這些數據提供了新途徑。

立即訪問聚合數據的需求繼續推動對這些 HPC 系統的需求。 在競爭中保持領先一步對於組織的成功和長盛不衰至關重要。 HPC 對於解決商業、科學和工程的複雜問題至關重要,並已成為科學、研究、零售、AV 等領域創新的基礎,並推動影響社會的技術進步。

從人工智能和機器學習、物聯網、研究和直播服務等技術收集的數據呈爆炸式增長,這需要實時處理,這超出了典型服務器的處理能力。

HPC 需求增長背後的另一個推動力是系統可以部署在邊緣、雲端或本地。 關鍵是在創建數據的地方處理數據,而不必將其傳輸到另一個遠程位置進行處理。

帶有 L670A 熱交換器的 Lenovo ThinkSystem SR2 v2

選擇 HPC 平台時的一個關鍵考慮因素是橫向擴展的能力。 當涉及到海量計算資源時,越多越好。 這些系統的橫向擴展能力至關重要,創建大型 HPC 集群的能力可能意味著成功或失敗,具體取決於擴展能力。 利用高速、低延遲互連和更新的存儲技術(如 NVMe)將加速計算結果。 集群可以構建在數據中心、雲或混合模型中,提供靈活且可擴展的部署。 Lenovo ThinkSystem SR670 V2就是這樣一個系統。

滿足 HPC 要求的 GPU 豐富的服務器

Lenovo ThinkSystem SR670 V2 是一款富含 GPU 的 3U 機架服務器,支持八個雙寬 GPU,包括 NVIDIA A100 和 A40 Tensor Core GPU,以及配備 NVIDIA HGX A100 4-GPU 的型號,提供 NVLink 和 Lenovo Neptune hybrid liquid-空氣冷卻。 該服務器基於新的第三代 Intel Xeon 可擴展處理器家族(以前稱為“Ice Lake”)和最新的 Intel Optane Persistent Memory 200 系列。

SR670 V2 為各個行業的人工智能 (AI)、高性能計算 (HPC) 和圖形工作負載提供最佳性能。 零售、製造、金融服務和醫療保健行業可以利用 SR670 V2 中 GPU 的處理能力來提取更重要的見解並利用機器學習 (ML) 和深度學習 (DL) 推動創新。

ThinkSystem SR670 V2 從機架擴展

傳統的空氣冷卻方法正在達到臨界極限。 組件功率的增加,尤其是 CPU 和 GPU 的功率增加,導致了更高的能源和基礎設施成本、嘈雜的系統和高碳足跡。 SR670 V2 型號採用 Lenovo Neptune 液空 (L2A) 混合冷卻技術來應對這些挑戰并快速散熱。 NVIDIA HGX A100 GPU 的熱量通過獨特的閉環液-氣熱交換器排出,該熱交換器提供液體冷卻的優勢,例如更高的密度、更低的功耗、安靜的運行和更高的性能,而無需添加管道。

行業正在利用 GPU 技術

SR670 V2 基於兩個第三代英特爾至強可擴展處理器構建,旨在支持 NVIDIA Ampere 數據中心產品組合中的最新 GPU。 SR3 V670 提供針對工作負載優化的性能,無論是利用可視化、渲染還是計算密集型 HPC 和 AI。

零售、製造、金融服務和醫療保健行業正在利用 GPU 提取更重要的見解,並利用機器學習 (ML) 和深度學習 (DL) 推動創新。 以下是加速計算在不同組織中利用 GPU 的幾種方式:

  • 在家工作團隊的遠程可視化
  • 用於逼真的圖形的光線追踪渲染
  • 強大的視頻編解碼
  • 生命科學中的電子計算機試驗和免疫學
  • 呼叫中心的自然語言處理 (NLP)
  • 用於質量控制的自動光學檢測 (AOI)
  • 用於零售客戶體驗的計算機視覺

隨著越來越多的工作負載利用加速器的功能,對 GPU 的需求也在增加。 ThinkSystem SR670 V2 提供優化的企業級解決方案,用於在生產中部署加速的 HPC 和 AI 工作負載,最大限度地提高系統性能。

靈活的配置選項

模塊化設計為 SR670 V2 提供了極致的靈活性。 配置選項包括:

  • 多達八個帶 NVLink Bridge 的雙寬度 GPU
  • NVIDIA HGX™ A100 4-GPU,配備 NVLink 和 Lenovo Neptune™ 混合液體冷卻
  • 前置或後置高速聯網選擇
  • 可選擇本地高速 2.5″、3.5″ 和 NVMe 存儲

ThinkSystem SR670 V2 性能針對您的工作負載、可視化、渲染或計算密集型 HPC 和 AI 進行了優化。

NVIDIA A100 Tensor Core GPU 可在各種規模上提供前所未有的加速,為全球性能最高的人工智能、數據分析和 HPC 應用彈性數據中心提供動力。 A100 可以有效地擴展或劃分為七個獨立的 GPU 實例。 多實例 GPU (MIG) 提供了一個統一平台,使彈性數據中心能夠動態調整以適應不斷變化的工作負載需求。 一個由 13 個 ThinkSystem SR670 V2 組成的機架可以產生高達 XNUMX PFLOPS 的計算能力。

ThinkSystem SR100 V4 基於最新的 Intel® Xeon® Scalable 系列 CPU 構建,旨在支持高端 GPU,包括 NVIDIA Tesla V670 和 T2,為 AI 和 HPC 工作負載提供優化的加速性能。

可擴展的解決方案

無論是剛開始使用 AI 還是進入生產,解決方案都必鬚根據組織的需求進行擴展。 ThinkSystem SR670 V2 可在使用高速結構的集群環境中使用,以隨著工作負載需求的增加而橫向擴展。

借助 Lenovo 智能計算編排 (LiCO),它增加了對多個用戶的支持,並將在單個集群環境中進行擴展。 LiCO 是一個強大的平台,可為 HPC 和 AI 應用程序管理集群資源。

LiCO 提供 AI 和 HPC 工作流,並支持多種 AI 框架,包括 TensorFlow、Caffe、Neon 和 MXNet,利用單個集群滿足不同的工作負載需求。

整個 HPC 產品組合的創新進展同樣迅速。 對於還沒有準備好採用全液體冷卻的組織,ThinkSystem SR670 V2 提供了令人印象深刻的靈活性。

Lenovo ThinkSystem SR670 V2 可配置性和規格

可配置性是 ThinkSystem SR670 V2 吸引力的核心。 它的靈活性側重於 GPU 密集計算,其大部分物理體積專用於模塊化 GPU,無論是單寬還是雙寬或 NVIDIA SXM。 三種基本配置如下。

配置 1 配置 2 配置 3
GPU 數量 4 個 SXM 4x 雙寬或 8x 單寬 8x 雙寬
驅動器支持 8x 2.5 英寸 8x 2.5 英寸或 4x 3.5 英寸 6x E1.S

配置說明:

聯想 ThinkSystem SR670 V2 配置

下表顯示了完整的 SR670 V2 規格。

組件 規範
機器類型 7Z22 – 1 年保修
7Z23 – 3 年保修
外形尺寸 3U機架
處理器 兩個第三代英特爾至強可擴展處理器(以前代號為“Ice Lake”)。 支持多達 40 個內核的處理器、高達 3.6 GHz 的內核速度和高達 270W 的 TDP 額定值。
芯片組 Intel C621A“Lewisburg”芯片組,代號為“Whitley”的平台的一部分。
記憶體應用 32 個 DIMM 插槽,帶有兩個處理器(每個處理器 16 個 DIMM 插槽)。 每個處理器有 8 個內存通道,每個通道有 2 個 DIMM (DPC)。 支持 Lenovo TruDDR4 RDIMM 和 3DS RDIMM。 DIMM 插槽在標準系統內存和持久內存之間共享。 DIMM 在 3200 DPC 時以高達 2 MHz 的頻率運行。
持久記憶 支持在 DIMM 插槽中安裝多達 16 個 Intel Optane Persistent Memory 200 系列模塊(每個處理器 8 個)。 持久內存 (Pmem) 與系統內存 DIMM 一起安裝。
內存最大 使用 RDIMM:使用 4 個 32GB 128DS RDIMM 最高可達 3TB
使用持久內存:使用 4 個 16GB 128DS RDIMM 和 3 個 16GB Pmem 模塊最高可達 128TB(每個處理器 1.5TB)
內存保護 ECC、SDDC(用於基於 x4 的內存 DIMM)、ADDDC(用於基於 x4 的內存 DIMM,需要 Platinum 或 Gold 處理器)和內存鏡像。
磁盤驅動器托架 2.5 英寸、3.5 英寸或 EDSFF 驅動器,具體取決於配置:

  • SXM GPU 的配置(SXM 型號):
    • 4 個或 8 個 2.5 英寸熱插拔 NVMe 驅動器托架
  • 具有 4 個雙寬 GPU 或 8 個單寬 GPU 的配置(4-DW GPU 模型):
    • 8 個 2.5 英寸熱插拔 AnyBay 驅動器托架,支持 SAS、SATA 或 NVMe SSD,或 SATA HDD
    • 4 個 3.5 英寸熱插拔驅動器托架,支持 SATA HDD 或 SSD(NVMe 特價)
  • 具有 8 個雙寬 GPU 的配置(8-DW GPU 模型):
    • 6 個 EDSFF E1.S 熱插拔 NVMe 驅動器托架

該服務器還支持最多支持兩個 M.2 驅動器的內部 M.2 適配器。

最大內部存儲空間
  • SXM模型:
    • 61.44TB,使用 8 個 7.68TB 2.5 英寸 NVMe SSD
  • 4-DW GPU模型:
    • 122.88TB 使用 8 個 15.36TB 2.5 英寸 SAS SSD
    • 61.44TB,使用 8 個 7.68TB 2.5 英寸 NVMe SSD
    • 16TB,使用 8 個 2TB 2.5 英寸 HDD
    • 72TB,使用 4 個 18TB 3.5 英寸 HDD
    • 30.72TB,使用 4 個 7.68TB 3.5 英寸 SAS/SATA SSD
  • 8-DW GPU模型:
    • 24TB 使用 6 個 4TB EDSFF NVMe SSD
存儲控制器
  • 8 個板載 SATA 端口(Intel VROC SATA RAID,以前稱為 Intel RSTe RAID)
  • 多達 8 個板載 NVMe 端口(包括英特爾 VROC NVMe RAID,具有非英特爾 NVMe SSD 的可選許可證)
  • 12 Gb SAS/SATA RAID 適配器
  • 12 Gb SAS/SATA 非 RAID HBA
光驅托架 沒有內置光驅。
磁帶機托架 沒有內部備份驅動器。
網絡接口 OCP 3.0 SFF 插槽,具有靈活的 PCIe 4.0 x8 或 x16 主機接口,可根據服務器配置提供:

  • SXM 型號:支持,取決於存儲配置
  • 4-DW GPU型號:支持,取決於PCIe插槽的配置
  • 8-DW GPU 型號:支持

OCP 插槽支持各種具有 2GbE、4GbE 和 1GbE 網絡連接的 10 端口和 25 端口適配器。 一個端口可以選擇與 XClarity 控制器 (XCC) 管理處理器共享,以支持局域網喚醒和 NC-SI。

PCI 擴展插槽 最多 4 個 PCIe 4.0 插槽,具體取決於所選的 GPU 和驅動器托架配置。 插槽選擇來自:

  • 2個前置插槽,PCIe 4.0,全高插槽; 在 SXM 配置中為半長,在 4-DW GPU 和 8-DW GPU 配置中為全長
  • 4 個後部插槽,使用轉接卡、PCIe 4.0、全高、半長插槽
GPU 支援 最多支持 8 個雙寬 PCIe GPU 或 4 個 SXM GPU,具體取決於配置:

  • SXM模型:
    • 4 個 SXM GPU,帶有 Lenovo Neptune 液空冷卻和 4 個或 8 個 2.5 英寸驅動器托架
  • 4-DW GPU模型:
    • 4 個雙寬 GPU,帶有 8 個 2.5 英寸或 4 個 3.5 英寸驅動器托架
    • 可通過特價購買:8 個單寬 GPU,帶有 8 個 2.5 英寸或 4 個 3.5 英寸驅動器托架
  • 8-DW GPU模型:
    • 8 個雙寬 GPU 和 6 個 EDSFF 驅動器托架

注意:通過特殊投標請求可以配置單寬 GPU,例如 NVIDIA A10。

連接埠數量 接待:

  • SXM 型號、4-DW GPU 型號和帶後 I/O 插槽的 8-DW GPU 型號:1 個 USB 3.1 G1 (5 Gb/s) 端口、1 個 USB 2.0 端口(也用於 XCC 本地管理)、外部診斷端口、 VGA端口。
  • 帶前置 I/O 插槽的 8-DW GPU 型號:無前置端口

背面:

  • 所有型號:3 個 USB 3.1 G1 (5 Gb/s) 端口、1 個 VGA 視頻端口、1 個用於 XCC 遠程管理的 RJ-45 1GbE 系統管理端口。
  • 帶後 I/O 插槽的型號:可選 DB-9 COM 串行端口(安裝在插槽中)。

內部:

  • 所有型號:1 個用於操作系統或許可證密鑰的 USB 3.1 G1 連接器
散熱 5 個雙轉子易插拔 80 毫米風扇,取決於配置。 風扇是 N+1 轉子冗餘,可容忍單轉子故障。 每個電源都集成了一個風扇。
電源 多達四個通過 80 PLUS 白金認證的熱插拔冗餘交流電源。 1800 W 或 2400 W AC 選項,支持 220 V AC。 僅在中國,電源還支持 240 V DC。

  • SXM 型號:4x 2400W
  • 4-DW GPU 型號:2x 2400W 或 4x 1800W 或 4x 2400W
  • 8-DW GPU 型號:4x 2400W
視頻資料 G200 圖形具有 16 MB 內存和 2D 硬件加速器,集成到 XClarity 控制器中。 1920Hz 時的最大分辨率為 1200×32 60bpp。
熱插拔零件 驅動器和電源。
系統管理 帶狀態 LED 的操作面板。 在 SXM 和 4-DW GPU 型號上,帶 LCD 顯示屏的外部診斷聽筒(不適用於 8-DW GPU 型號)。 XClarity Controller (XCC) 嵌入式管理、XClarity Administrator 集中式基礎架構交付、XClarity Integrator 插件和 XClarity Energy Manager 集中式服務器電源管理。 可選 XClarity Controller Advanced 和 Enterprise 以啟用遠程控制功能。
安全特性 機箱防盜開關、開機密碼、管理員密碼、可信平台模塊(TPM),支持TPM 2.0。 僅限中國,可選 Nationz TPM 2.0。
支持的操作系統 Microsoft Windows Server、Red Hat Enterprise Linux、SUSE Linux Enterprise Server、VMware ESXi。
有限保修 三年或一年(取決於型號)客戶可更換單元和現場有限保修,下一工作日 9×5 (NBD)。
服務與支持 可選服務升級可通過聯想服務獲得:4 小時或 2 小時響應時間、6 小時修復時間、1 年或 2 年保修延期、聯想硬件的軟件支持以及一些第三方應用程序。
尺寸 寬度:448 毫米(17.6 英寸),高度:131 毫米(5.2 英寸),深度:892 毫米(35.1 英寸)。
重量 大約重量,取決於所選配置:

  • SXM 型號:39.5 千克(87 磅)
  • 4-DW GPU 型號:36.7 千克(81 磅)
  • 8-DW GPU 型號:39 千克(86 磅)

GPU 提供重要的配置性能選項

GPU 支持是配置之間最重要的變量。 單寬 GPU 使用 PCIe x8 通道並擴展到 NVIDIA A10,而雙寬 GPU 使用 PCIe x16 並擴展到 NVIDIA A100。 旗艦 SXM 配置使用 NVIDIA HGX A100,它使用 NVIDIA NVLink 橋(直接 GPU 到 GPU 通信)連接其四個板載 GPU。 雙寬GPU配置支持NVLink,SR670 V2還支持雙寬AMD Instinct MI210。

HGX A100 平台是沒有 NVSwitch 的“紅石”變體,在一塊板上有四個 SXM A100 GPU。 提供 40GB、400 瓦和 80GB、500 瓦兩種版本。 值得注意的是,SR670 V2 在該平台上採用聯想的 Neptune 液空 (L2A) 混合冷卻技術,可實現更安靜、更高效的冷卻和更低的功耗。 每個 GPU 上都安裝了一個冷板,四個冗餘低壓泵通過該冷板循環液體。 一個大的單個散熱器散發熱量。 其他 GPU 配置僅為風冷。

ThinkSystem SR670 V2 GPU

作為 Neptune 品牌部分的一部分,每個 GPU 上方的獨立冷卻劑泵在冷卻板上可見。 這些都通過單個散熱器回流,即使在峰值負載下也能控制溫度。

ThinkSystem SR670 V2 顯卡 2

雖然液體冷卻在保持較低溫度方面具有明顯優勢,但許多人沒有意識到 GPU 時鐘速度會對性能產生多大影響。 當 GPU 在空氣冷卻下承受高負載時,它們可能會達到熱設計峰值點,然後它們必須節流性能並降低時鐘速度以控制溫度。 液體冷卻不存在這個問題,它可以讓 GPU 運行得更強勁、更快,同時在整個工作負載過程中保持一致的熱分佈。

下圖顯示了滿載時風冷和液冷 GPU 之間的區別。 當風冷型號開始達到峰值溫度時,GPU 頻率降低,而液冷 CPU 在此期間保持峰值時鐘速度。

對於插槽,基本 SR670 V2 配置有 2 個前置 PCIe 4.0 x16 I/O 插槽,但前置的其餘部分可針對上述驅動器選項進行配置。 都支持熱插拔。

  • SXM 模型 – 選擇:
    • 4 個 2.5 英寸熱插拔 NVMe 驅動器托架
    • 8 個 2.5 英寸熱插拔 NVMe 驅動器托架
  • 4-DW GPU 模型 – 選擇:
    • 8 個 2.5 英寸熱插拔 AnyBay 驅動器托架,支持 SAS、SATA 或 NVMe 驅動器
    • 4 個 3.5 英寸熱插拔驅動器托架,支持 SATA HDD 或 SSD 驅動器(僅通過特價支持 NVMe)
  • 8-DW GPU模型:
    • 6 個 EDSFF E1.S 熱插拔 NVMe 驅動器托架

SR670 V2 還支持一個或兩個 M.2 格式的 SATA 或 NVMe 啟動或存儲驅動器。 RAID 支持通過板載硬件控制器提供。

ThinkSystem SR670 V2主板

同時,背板是固定的,有4.0個PCIe 16 x3.0插槽和670個OCP 2。 從背面也可以看到 SR1800 V2400 的四個冗餘熱插拔電源。 它們提供 80W 或 XNUMXW 選項,並具有 XNUMX Plus Platinum 評級。

配備 SXM 配置的 SR670 V2 型號包含一個不同的電源鏈路,它為前置 GPU 部分提供專用電源鏈路。 這些模型與插槽負載 GPU 模型形成鮮明對比,後者不包括來自機箱後部的大量電源連接。

SR670 V2 的其餘硬件同樣令人印象深刻,並延續了其靈活性主題。 它最多支持兩個 40 核/80 線程英特爾“Ice Lake”第三代至強可擴展處理器,TDP 高達 270 瓦。 每個CPU有16個DDR4-3200 RDIMM插槽; 使用 128GB RDIMM,內存上限為 4TB。 根據 CPU 的不同,SR670 V2 還支持多達 16 個 英特爾持久內存 200 系列, 安裝有常規系統內存。 憑藉 ThinkSystem SR670 V2 必須提供的所有硬件,聯想在散熱佈局上發揮了最大的作用,以發揮系統的最大性能。 並非所有系統都允許所有組件在沒有節流的情況下以 100% 的利用率運行,而 SR670 V2 旨在實現這一點。

最後的思考

聯想致力於液體冷卻,並利用該專業知識開發了 L2A 熱交換器等產品。 隨著服務器內部功率密度的不斷增加,供應商需要想出創造性的方法來消除組件的熱負荷並將其傳遞到系統之外。 並非所有客戶都需要或想要完整的液體冷卻解決方案。 然而,聯想可以通過其產品組合中的風冷、部分水冷和全水冷服務器提供解決方案來滿足客戶的冷卻需求。

第一代 Neptune™ 僅向 CPU 和內存提供液體冷卻。 除了 CPU 和內存,聯想的 Neptune 液體冷卻系統還擴展到包括電壓調節、存儲、PCIe,現在還包括 GPU。 聯想甚至推出了取消風扇的液冷電源。 展望未來,聯想認為液體冷卻是處理下一代 CPU 和 GPU 產生的熱量的關鍵,也是保持企業客戶已經習慣的密度和占用空間的方式。

聯想 HPC 解決方案

本報告由聯想贊助 本報告中表達的所有觀點和意見均基於我們對所考慮產品的公正看法。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | 的TikTok | RSS訂閱