ホーム Enterprise Lenovo ThinkSystem SR685a V3 および SR680a V3 GPU サーバー

Lenovo ThinkSystem SR685a V3 および SR680a V3 GPU サーバー

by ライル・スミス

Lenovo ThinkSystem SR685a V3 および SR680a V3 GPU サーバーは、企業の AI の多様なニーズを満たすように調整された、同社の最新の 8 ウェイ GPU サーバーです。

Lenovo ThinkSystem SR685a V3 および SR680a V3 GPU サーバーは、企業の AI の多様なニーズを満たすように調整された、同社の最新の 8 ウェイ GPU サーバーです。異なるモデル名を持っていますが、モジュール式の基盤を共有しているため、各システム内でコンポーネントを交換できます。

基本的に、これらのサーバーには、数え方に応じて 2 つまたは 6 つのコア コンポーネントがあります。まず、外側のケーシングは、背面にファンが組み込まれたシャーシ シェルを構成します。 2U モジュラー サーバーを上部に保持する内部レールがあります。下部の 3U には、GPU、スイッチ、および PCIe ファブリックが収容されます。 XNUMXU サーバーの I/O は、AMD または Intel の製品によって異なります。 Lenovo は現在、NVIDIA および AMD GPU ボードをサポートしていますが、将来的には Intel Guadi XNUMX もサポートします。

Lenovo SR685a V3 (AI 用のリトル a) は、デュアル第 4 世代 AMD EPYC プロセッサーを利用し、特に高帯域幅の GPU 間通信用に最適化されているため、生成 AI アプリケーションに最適です。逆に、第 680 世代インテル Xeon スケーラブル プロセッサーを搭載した SR3a V5 は、多用途の AI および計算アプリケーションをサポートし、業界の多様なニーズに対応する NVIDIA および AMD GPU に対応します。どちらのモデルもモジュール化に対する革新的なアプローチを採用しており、ユーザーはシステムをカスタマイズして拡張して、特定の運用上の要求に正確に合わせることができます。

これらのサーバーは非常に人気があり (ただし、現時点では入手するのが非常に困難です)、昨年オースティンで開催された Lenovo のカンファレンスでは大きな話題を呼びました。これらの GPU サーバーと、AI 機能を進化させる可能性に関しては、大きな興奮が高まっています。

構成可能なモデルとカスタマイズ

Lenovo ThinkSystem SR685a V3 および SR680a V3 システムは、カスタマイズのフレームワークとして機能するさまざまな受注構成 (CTO) モデルで提供されます。構成モデルをカスタマイズする機能は、GPU の詳細な選択にまで拡張され、選択された特定の GPU に基づいてモデルが定義されます。たとえば、Lenovo コンフィギュレーターにリストされている基本フィーチャー コードを使用すると、AMD MI300X と NVIDIA H100/H200 の間で選択でき、それぞれが異なるパフォーマンスと計算のニーズに対応します。このプラットフォーム設計により、Lenovo は新しいアクセラレーターが市場に投入される際に、より柔軟に統合できるようになります。

Lenovo ThinkSystem SR685a V3 仕様

コンポーネント 製品仕様
フォームファクター 8Uラック
プロセッサ 9004 つの AMD EPYC 64 シリーズ プロセッサ (以前のコード名は「Genoa」)。最大 3.1 コアのプロセッサ、最大 400 GHz のコア速度、最大 5.0 W の TDP 定格をサポートします。高性能 I/O のための PCIe XNUMX をサポートします。
GPU 選択:

  • GPU あたり 300GB HBM750 GPU メモリを搭載した 192 つの AMD MI3X XNUMXW OAM GPU
  • 100 つの NVIDIA H700 5W SXM80 GPU、GPU あたり 3GB HBMXNUMX GPU メモリを搭載
  • 200 つの NVIDIA H700 5W SXM141 GPU、GPU あたり 3GB HBMXNUMX GPU メモリを搭載
メモリ 24 つのプロセッサーを備えた 12 個の DIMM スロット (プロセッサーごとに 12 個の DIMM スロット)。各プロセッサには 1 のメモリ チャネルがあり、チャネルごとに 5 つの DIMM (DPC) が付いています。 Lenovo TruDDR4800 RDIMM は最大 XNUMX MHz までサポートされます。
メモリ最大 1.5x 24GB RDIMM で最大 64TB
2.25x 24GB RDIMM で最大 96TB
メモリ保護 ECC、SDDC、パトロール/デマンド スクラビング、バウンド フォールト、リプレイ付き DRAM アドレス コマンド パリティ、DRAM 未修正 ECC エラー リトライ、オンダイ ECC、ECC エラー チェックおよびスクラブ (ECS)、ポスト パッケージ リペア
ディスクドライブベイ PCIe 16 NVMe ドライブをサポートする最大 2.5 個の 5.0 インチ ホットスワップ ドライブ ベイ。
OSブートドライブ 統合された RAID-2 を備えた M.1 アダプターのサポート。 OS ブートおよびデータ ストレージ機能用の 2 台の NVMe M.2 ドライブのサポート
最大内部ストレージ 51.2 TB (16 個の 3.2 TB 2.5 インチ NVMe SSD を使用)
ストレージコントローラー オンボードNVMe (非RAID)
ネットワークインターフェース GPU ダイレクト サポートにより、最大 8 Gb/s の接続を実現する 400 つの高性能ネットワーク アダプターをサポートします。ユーザー/コントロール プレーン用の NVIDIA BlueField-3 2 ポート 200Gb アダプターと、管理用の OCP ネットワーク アダプターの選択をサポートします。 OCP 3.0 スロットには PCIe 5.0 x16 ホスト インターフェイスがあり、オプションで 2 つのポートが Wake-on-LAN および NC-SI サポート用の XClarity Controller 2 (XCCXNUMX) 管理プロセッサと共有されます。
PCI拡張スロット 10x PCIe 5.0 x16 スロット:

  • 前面: 8x PCIe 5.0 x16 FHHL スロット (GPU ダイレクトサポート付き)
  • 背面: PCIe 1 x5.0 FHHL スロット x 16 + PCIe 1 x3.0 インターフェイス付き OCP 5.0 スロット x 16
ポート 前面: USB 1 G3.2 (1 Gb/s) ポート x 5、USB 1 ポート x 2.0 (XCC ローカル管理用)、VGA ビデオ ポート x 1。
背面: XCC リモート管理用の USB 3 G3.2 (1 Gb/s) ポート x 5、VGA ビデオ ポート x 1、RJ-1 45GbE システム管理ポート x 1。
冷却 CPU およびストレージ サブシステム用に前面に取り付けられた 5 つのデュアルローター ファン、N+1 冗長。 GPU サブシステム用に背面に取り付けられた 10 個のデュアルローター ファン、N+1 冗長。各電源には XNUMX つのファンが組み込まれています。前面から背面へのエアフロー。
電源 最大 N+N 冗長性を備えた 80 台のホットスワップ冗長 AC 電源。 2600PLUSチタン認証。 220 V AC 電源を必要とする XNUMX W AC 電源。
動画 16 MB メモリを備えた組み込みビデオ グラフィックスと 2D ハードウェア アクセラレータが XClarity コントローラーに統合されています。 1920 つのビデオ ポート (前面 VGA と背面 VGA) を同時に使用することはできません。前面 VGA ポートを使用すると、背面 VGA ポートが無効になります。最大解像度は 1200×32 60bpp(XNUMXHz)です。
ホットスワップ部品 ドライブ、電源装置、およびファン。
システム管理 ステータス LED と引き出し式 LCD ディスプレイを備えた統合診断パネル。 ASPEED AST2 ベースボード管理コントローラー (BMC) に基づく XClarity コントローラー 2 (XCC2600) 組み込み管理。管理用の XCC2 リモート アクセス用の専用背面イーサネット ポート。集中インフラストラクチャ管理用の XClarity Administrator、XClarity Integrator プラグイン、および XClarity Energy Manager 集中サーバー電源管理。オプションの XCC Platinum を使用すると、リモート コントロール機能などが有効になります。
セキュリティ機能 電源投入時パスワード、管理者パスワード、TPM 2.0 をサポートする Root of Trust モジュール、およびプラットフォーム ファームウェア復元力 (PFR)。
サポートされているオペレーティングシステム Ubuntuサーバー。
限定的保証 9 年または 5 年 (モデルに応じて) の顧客交換可能ユニットと、翌営業日 XNUMX×XNUMX のオンサイト限定保証 (NBD)。
サービスとサポート オプションのサービスアップグレードは、Lenovo サービスを通じてご利用いただけます: 4 時間または 2 時間の応答時間、6 時間の修正時間、1 年または 2 年の保証延長、Lenovo ハードウェアのソフトウェアサポート、および一部のサードパーティアプリケーション。
寸法 幅: 447 mm (17.6 インチ)、高さ: 351 mm (13.8 インチ)、奥行き: 924 mm (36.3 インチ)。
重量 最大: 108.9 kg (240 ポンド)

Lenovo ThinkSystem SR680a V3 仕様 

コンポーネント 製品仕様
フォームファクター 8Uラック
プロセッサ 5 つの第 48 世代インテル Xeon スケーラブル プロセッサー (以前のコード名は「Emerald Rapids」)。 2.3 コア、コア速度 350 GHz、TDP 定格 5.0 W のプロセッサをサポートします。高性能 I/O のための PCIe XNUMX をサポートします。
チップセット Intel C741「Emmitsburg」チップセット、コードネーム「Eagle Stream」プラットフォームの一部
GPU 選択:

  • GPU あたり 300GB HBM750 GPU メモリを搭載した 192 つの AMD MI3X XNUMXW OAM GPU
  • 100 つの NVIDIA H700 5W SXM80 GPU、GPU あたり 3GB HBMXNUMX GPU メモリを搭載
  • 200 つの NVIDIA H700 5W SXM141 GPU、GPU あたり 3GB HBMXNUMX GPU メモリを搭載
メモリ 32 つのプロセッサーを備えた 16 個の DIMM スロット (プロセッサーあたり 8 個の DIMM スロット)。各プロセッサには 2 つのメモリ チャネルがあり、チャネルごとに 5 つの DIMM (DPC) が付いています。 Lenovo TruDDR5600 RDIMM がサポートされています。 DIMM は 1 DPC で最大 4400 MHz、2 DPC で最大 XNUMX MHz で動作します。
メモリ最大 2x 32GB RDIMM で最大 64TB
メモリ保護 ECC、SDDC (x4 ベースのメモリ DIMM の場合)、ADDDC (4x9 RDIMM を除く x4 ベースのメモリ DIMM の場合、Platinum または Gold プロセッサが必要)、およびメモリ ミラーリング。
ディスクドライブベイ PCIe 16 NVMe ドライブをサポートする最大 2.5 個の 5.0 インチ ホットスワップ ドライブ ベイ。
OSブートドライブ OS ブートおよびデータ ストレージ機能のためのオプションの Intel VROC NVMe RAID サポートを備えた 2 つの M.XNUMX ドライブのサポート
最大内部ストレージ 51.2 TB (16 個の 3.2 TB 2.5 インチ NVMe SSD を使用)
ストレージコントローラー オンボードNVMe (非RAID)
ネットワークインターフェース GPU ダイレクト サポートにより、最大 8 Gb/s の接続を実現する 400 つの高性能ネットワーク アダプターをサポートします。ユーザー/コントロール プレーン用の NVIDIA BlueField-3 2 ポート 200Gb アダプターと、管理用の Mellanox ConnectX-6 Lx 2 ポート 10/25GbE アダプターをサポートします。
PCI拡張スロット 10x PCIe 5.0 x16 スロット:

  • 前面: 8x PCIe 5.0 x16 FHHL スロット (GPU ダイレクトサポート付き)
  • 背面: 2x PCIe 5.0 x16 FHHL スロット
ポート 前面: USB 1 G3.2 (1 Gb/s) ポート x 5、USB 1 ポート x 2.0 (XCC ローカル管理用)、Mini DisplayPort ビデオ ポート x 1。
背面: XCC リモート管理用の USB 2 G3.2 (1 Gb/s) ポート x 5、VGA ビデオ ポート x 1、RJ-1 45GbE システム管理ポート x 1。
冷却 CPU およびストレージ サブシステム用に前面に取り付けられた 5 つのデュアルローター ファン、N+1 冗長。 GPU サブシステム用に背面に取り付けられた 10 個のデュアルローター ファン、N+1 冗長。各電源には XNUMX つのファンが組み込まれています。前面から背面へのエアフロー。
電源 最大 N+N 冗長性を備えた 80 台のホットスワップ冗長 AC 電源。 2600PLUSチタン認証。 220 V AC 電源を必要とする XNUMX W AC 電源。
動画 16 MB メモリを備えた組み込みグラフィックスと 2D ハードウェア アクセラレータが、XClarity Controller 2 管理コントローラーに統合されています。 1920 つのビデオ ポート (前面 Mini DisplayPort と背面 VGA)。必要に応じて両方を同時に使用できます。両方のポートの最大解像度は 1200Hz で 60×XNUMX です。
ホットスワップ部品 ドライブ、電源装置、およびファン。
システム管理 ステータス LED と引き出し式 LCD ディスプレイを備えた統合診断パネル。 ASPEED AST2 ベースボード管理コントローラー (BMC) に基づく XClarity コントローラー 2 (XCC2600) 組み込み管理。管理用の XCC2 リモート アクセス用の専用背面イーサネット ポート。集中インフラストラクチャ管理用の XClarity Administrator、XClarity Integrator プラグイン、および XClarity Energy Manager 集中サーバー電源管理。オプションの XCC Platinum を使用すると、リモート コントロール機能などの機能が有効になります。
セキュリティ機能 電源投入時パスワード、管理者パスワード、TPM 2.0 をサポートする Root of Trust モジュール、およびプラットフォーム ファームウェア復元力 (PFR)。
サポートされているオペレーティングシステム Ubuntuサーバー。
限定的保証 9 年または 5 年 (モデルに応じて) の顧客交換可能ユニットと、翌営業日 XNUMX×XNUMX のオンサイト限定保証 (NBD)。
サービスとサポート オプションのサービスアップグレードは、Lenovo サービスを通じてご利用いただけます: 4 時間または 2 時間の応答時間、6 時間の修正時間、1 年または 2 年の保証延長、Lenovo ハードウェアのソフトウェアサポート、および一部のサードパーティアプリケーション。
寸法 幅: 447 mm (17.6 インチ)、高さ: 351 mm (13.8 インチ)、奥行き: 924 mm (36.3 インチ)。
重量 最大: 108.7 kg (239.8 ポンド)

Lenovo ThinkSystem SR685a V3 および SR680a V3 の設計と構築

システムの前面は、最大 16 個のホットスワップ PCIe Gen5 NVMe ドライブ ベイをサポートします。これは、通常、拡張用のベイとレーンの数が少ない GPU 中心のサーバーとしては、非常に豊富な量です。ドライブ ベイの下には、前面からアクセス可能な 5 つの PCIe Gen400 FHHL (フルハイト、ハーフレングス) スロットと PCIe スイッチング コンプレックスがあります。これらのスロットには GPU Direct テクノロジー (NDR XNUMXGb/s InfiniBand アダプター XNUMX 個) が装備されており、高速ネットワーキングとデータ転送が可能になり、遅延が減少し、データ処理速度が向上します。

このシステムには、シャーシの上部に 2 つのホットスワップ可能なファンが搭載されており、CPU、メモリ、背面スロットを含む上部 XNUMXU を占めるサーバーを冷却するように設計されています。ドライブ ベイ、アダプター、GPU を冷却するために、シャーシの背面に追加の XNUMX 個のファンが取り付けられています。

フロントパネルには、3.2 つの USB 1 GenXNUMX ポートとビデオ出力を含む重要な接続ポートと管理ポートも収容されており、直接管理とローカル コンソールの対話が容易になります。

背面も同様に、2U サーバー拡張機能などの装備が充実しています。 AMD バリアントでは、PCIe Gen5 x16 インターフェイスを備えた OCP 3.0 スロットに加えて、5 つの PCIe Gen16 x5 FHHL スロットが提供されます。逆に、Intel モデルには PCIe Gen16 x3.0 FHHL スロットが 3 つあります。 OCP XNUMX スロットは、オープン スタンダードに準拠したさまざまなアダプタ カードに対応することで、ネットワークおよびアクセラレーションのオプションに多用途性を提供します。 NVIDIA BlueField-XNUMX DPU アダプターをインストールすると、ソフトウェア デファインド、ハードウェア アクセラレーションの IT インフラストラクチャが可能になり、ネットワーキングやセキュリティなどのさまざまな IT 運用が最適化されます。

GPU ユニットの背面には 2,600 つの 2 W 電源が収容されており、それぞれが中央配電盤に接続されています。このセットアップには、ボードの背面にあるコネクタ (Lenovo では「ブラインド メイト」と呼ぶ) が含まれており、これにより XNUMXU コンピューティング シャトルへのシームレスな接続が容易になります。

さらに、上で述べたように、背面図では、GPU、スイッチ、PCIe ファブリック全体で最適な熱状態を維持するように設計された 10 個のホットスワップ背面ファンを含む、サーバーの広範な冷却システムが明らかになります。この冷却システムは、特に継続的な高負荷動作中に、ハードウェアのパフォーマンスの安定性と寿命を維持するために非常に重要です。

電源、ケーブル配線、スイッチング

このサーバー ファミリの AMD バージョンと Intel バージョンは共通の電源レイアウトを共有しており、これらのシステムの大きな特徴であるモジュール性の向上が可能です。

PCIe 信号は、コンピューティング スレッドを PCIe スイッチング スレッドに接続するリボン ケーブルを通って流れます。コンピューティング スレッドの反対側にはブラインド接続があります。コンピューティング スレッドはこれらのコネクタに接続され、PCIe 信号をシャーシの残りの部分に渡します。スレッドの背面にあるブラケット (指定された PCIe 接続のラベルが付いている) を使用すると、サーバーの底面を変更せずにコンピューティング シャトルを切り替えることができます。

PCIe スイッチング ボードには、PCIe スロットに囲まれた 4 つの Broadcom スイッチが含まれており、サーバーを高速ネットワーク ファブリックに接続できます。さらに、マザーボードにリンクする MCIO ケーブル コネクタが 8 つあります。上部の小さい PCIe コネクタは、フロントマウント NVMe SSD のドライブ バックプレーン用に設計されています。

メモリと内部ストレージ

AMD コンピューティングは最大 24 個の DDR5 メモリ DIMM をサポートし、各プロセッサは 12 個のメモリ チャネルを介して 12 個の DIMM とインターフェイスし、チャネルごとに 4800 個の DIMM 構成が可能になります。これらの DIMM は 1.5 MHz の速度で動作し、全体的なメモリのスループットと効率が向上します。構成に応じて、サーバーは 24 個の 64GB RDIMM を使用して 2.25TB のシステム メモリ、または 24 個の 96GB RDIMM を使用して XNUMXTB のシステム メモリをサポートでき、最もメモリを必要とするタスクにも十分な容量を提供します。

Intel コンピューティング (SR680a V3) は、最大 5 MHz の速度で動作する Lenovo TruDDR5600 メモリを利用します。また、32 つのプロセッサ間で最大 8 個の DIMM を搭載し、AMD よりも高い容量をサポートし、2 つのメモリ チャネルを利用してチャネルあたり 2 つの DIMM (DPC) をサポートします。メモリ構成に応じて、サーバーは 32 個の 64GB RDIMM を使用して最大 XNUMXTB のシステム メモリをサポートできます。

DIMM の動作速度は、チャネルあたりの DIMM の数によって異なります。チャネルあたり 1 つの DIMM では、メモリは最大 5600 MHz の速度に達しますが、チャネルあたり 2 つの DIMM を備えた構成では、最大 4400 MHz で動作します。この柔軟な速度調整により、特定のメモリ負荷と構成に基づいてパフォーマンスを最適化できます。

さらに、このサーバーは、統合された RAID 機能を備えた M.2 アダプター上に 2 台の M.XNUMX NVMe ドライブを搭載しており、オペレーティング システムのブート プロセスと高速データ アクセスに最適です。

AMD および NVIDIA GPU ボード

NVIDIA H100/H200 ボードには 3 つの NVIDIA GPU がしっかりと詰め込まれており、ボードの持ち運びと取り付けを容易にする格納式ハンドルが特徴です。ハンドルを取り付けると、障害物を避けるためにハンドルが GPU の横にきちんと収まります。 AMD ボードと NVIDIA ボード間のコネクタは同一です。 Intel Gaudi XNUMX ボードには別のコネクタがあります。

AMD MI300 ボードは NVIDIA ボードに似ていますが、標準のハンドルが大きく突き出ています。これも便利ではありますが、NVIDIA ボードの格納式ハンドルほどエレガントではありません。どちらにしてもお客様は気にしないでしょうから、デザインの違いが気になったので脚注を追加しました。

最終的な考え

Lenovo ThinkSystem SR685a V3 および SR680a V3 GPU サーバーは、優れたモジュール性を提供し、強力な NVIDIA H100/H200 および AMD MI300X GPU に加え、AMD EPYC 9004 と 5 の両方をサポートします。th Xeon 世代 Intel CPU。この柔軟性と空冷設計により、既存のエコシステムに簡単に統合できます。また、このサーバーは、一般的な GPU サーバーよりも多くのストレージ (16 個のホットスワップ PCIe Gen5 NVMe ドライブ ベイ経由) をサポートし、データ集約型タスクのユーティリティを強化します。さらに、管理に Lenovo の XClarity を組み込むことで、運用と監視が合理化され、複雑なインフラストラクチャの管理がさらに簡素化されます。

パフォーマンス テストは実施されていませんが、これらのサーバーの設計は注目に値します。モジュラー アーキテクチャにより、Lenovo は今日、Intel または AMD コンピュータ サーバーを使用して、AMD および NVIDIA GPU を顧客に簡単に提供できるようになりました。 Intel Guadi 3 や NVIDIA B200 などの GPU サポートを強化することで、Lenovo は顧客がコンピューティング コンポーネントと GPU コンポーネントを組み合わせて、特定のアプリケーションに合わせてサーバーを調整できるようになります。

全体として、これらのサーバーは非常によく考えられており、実際に使用して時間を記録することを楽しみにしています。ジョーダンは期待を込めて心配そうにひげを撫でている。現在、675 つの NVIDIA L3S GPU を搭載した Lenovo SR40 v8 を使用したプロジェクトに取り組んでいますが、これらの XNUMX ウェイ サーバーは別のものであり、幅広い AI ユースケースがあります。ただし、これは Lenovo がすべての人に AI プラットフォームを提供していることを思い出させてくれるでしょう。

Lenovo GPU サーバー

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード