Supermicro X13 SuperBlade シャーシと GPU ブレードは、特に中規模の AI タスクにとって、適応性が高く堅牢な選択肢です。
Supermicro はブレード サーバー テクノロジーの先駆者であり、その SuperBlade システムはその証拠となっています。 Supermicro X13 SuperBlade シャーシとブレードの導入により、GPU 対応ブレードと最新の Emerald Rapids CPU と NVIDIA H100 GPU の統合によるテクノロジーの新しい章が始まります。これらの進歩により、卓越した処理能力と効率がもたらされ、X13 はさまざまなハイエンド アプリケーションにとって理想的な候補となっています。
デザインと仕様
Supermicro X13 SuperBlade シャーシは、高密度と柔軟性で知られる、おなじみの 8U シャーシ設計を継承しています。各シャーシは最大 20 枚のブレードをサポートしており、最新の製品は Emerald Rapids CPU と NVIDIA H100 GPU を統合することで大幅に強化されています。この強力な組み合わせにより、前例のない計算能力が実現されることが期待されます。さらに、シャーシには 200G InfiniBand および 25G Ethernet 通信が備わっており、高速データ転送とネットワーク効率を保証します。
一般的な使用例:
- データ分析: Emerald Rapids CPU の高度な処理能力と NVIDIA H100 GPU の加速されたコンピューティング機能を備えた X13 SuperBlade は、要求の厳しいデータ分析タスクに非常に適しています。これらのタスクには、今日のデータ主導の世界ではますます重要になっているリアルタイム データ処理と大規模なデータ マイニング操作が含まれます。
- 人工知能と機械学習: X13 SuperBlade は、AI および機械学習モデル、特に大量の計算リソースを必要とする深層学習アルゴリズムに必要な馬力を提供します。
- 高性能コンピューティング: 科学シミュレーション、医学研究、エンジニアリングにおける高度な計算タスクでは、X13 の強化されたパフォーマンスから大きなメリットが得られ、ハイパフォーマンス コンピューティング アプリケーションの第一の選択肢となります。
- クラウドコンピューティング: ブレードの密度とパフォーマンスが向上したため、クラウド サービス プロバイダーにとって理想的です。これらは、集中的な仮想化やコンテナ化を必要とするものを含む、多くのクラウドベースのアプリケーションやサービスを処理できます。
- ネットワーキングとコミュニケーション: 200G InfiniBand および 25G Ethernet 通信を備えた X13 は、高帯域幅、低遅延アプリケーションに優れており、要求の厳しいネットワーキングおよび通信タスクに適しています。外部ネットワークのおかげで、SuperBlade はハブとして機能し、同じラックまたはデータ センター内の従来の非ブレード サーバーとの InfiniBand およびイーサネット通信を提供できます。
Supermicro が提供したテスト装置には、合計 100 つのブレードがありました。 XNUMX 台にはシングル プロセッサと PCIe アクセラレータを搭載する能力が備わっていました。私たちの場合は、XNUMX 台の NVIDIA HXNUMX と XNUMX 台のデュアル プロセッサ ブレードでした。コンピューティング ブレードについては、後続のレビューでフォローアップする予定ですが、このレビューは長かったため、少し過剰に含めてしまいました。
Supermicro X13 SuperBlade データシート
成分 | 説明 |
---|---|
エンクロージャー | 1x SBE-820H2-630 |
PSW | PWS-6K3A-BR 01個 |
ファン | 2x PWS-DF006-2F |
BBP | 1x AOC-MB-BBP01-P |
CMM | MBM-CMM-6 |
IBスイッチ | 1x SBM-IBS-H4020 |
JPスイッチ | 2x SBM-25G-200 |
ブレード構成 |
|
Supermicro X13 GPU スーパーブレード
GPU ブレードは一見するとそのパワーを信じられないほど前面に吸気口があり、デュアル プロセッサ ブレードには GPU の代わりに 2.5 インチ NVMe ベイが搭載されています。
背面には、ブレードをシャーシに接続するための驚くほどの数のピンがあり、すべての電力とデータを伝送します。
内部を見ると、GPU ブレードに m.2 ブート SSD が搭載されていることがわかります。
上からはエアバッフルガイドが見えます。 GPU ブレードとデュアル CPU ブレードの違いに注目してください。 GPU ブレードのマザーボードはデュアル CPU と同一ですが、背面の I/O 半分だけが異なります。
前面付近では、さまざまな実装が確認できます。 GPU ブレードには PCIe ライザーがあり、CPU ブレードには U.2 PCIe ライザーがあり、PCIe スロットにさまざまなコンポーネントを収容できます。このシャーシは、最初に新鮮な空気を GPU に引き込むことによって、パッシブ GPU を最適に冷却するように設計されています。
次に、シャーシの背面から、PSU とネットワーク接続を確認します。上部の全幅スイッチは 200G ビット NVIDIA Quantum InfiniBand 用です。下部の 25 つのスイッチのうち大きい方は XNUMXG イーサネットで、中央の小さなモジュールはシャーシ管理モジュール用です。
Supermicro X13 SuperBlade シャーシの管理と導入
Supermicro の SuperBlade X13 シャーシにシャーシ管理モジュール (CMM) を統合すると、個々のブレードを超えてラック全体を網羅するさまざまなメリットが得られ、データセンター運用の全体的な効率と管理性が向上します。 CMM は集中制御ポイントとして機能し、SuperBlade X13 システムの管理を合理化します。
ブレード シャーシなどの統合プラットフォームでは、すべてのシャーシ機能を 1 つの画面で管理することが重要です。個々のブレードの電源を入れ直す機能は一部の人にとって重要かもしれませんが、他の多くの機能が日常の管理ルーチンで貴重な役割を果たします。
Supermicro の CMM は、シャーシを監視し、取り付けられているブレードを表示し、シャーシの背面に取り付けられている統合スイッチを管理するための中央のランディング スポットを提供します。この帯域外管理ではデバイスの IP アドレスも取り込まれるため、その中央スポットから接続されている各デバイスに簡単にアクセスできます。
インストールされている各ブレードの管理は、スタンドアロンの Supermicro サーバーの管理と同様です。 BIOS アップデートなどのアクティビティは、BMC を通じて実行されます。 前の実験。この一元化されたアプローチにより、迅速な展開とすべてのブレードにわたる一貫した更新が可能になり、各コンポーネントが最新のファームウェアと設定で動作することが保証されます。このような均一性は、特に構成の不一致が大幅な非効率につながる可能性がある高密度コンピューティング環境において、システムの安定性とパフォーマンスを維持するために不可欠です。
SuperBlade X13 の管理における CMM の役割は、ラック全体の健全性の監視と制御にまで及びます。電力消費、冷却、ネットワーク、システムの健全性を監視し、ラックのパフォーマンスの全体的なビューを提供します。この監視は、潜在的な問題が拡大する前に特定して対処し、ダウンタイムを最小限に抑え、最適な運用効率を維持するために非常に重要です。
CMM は、サーバー ブレードの管理に加えて、同じ単一のインターフェイスを通じてネットワーク管理も処理します。これにより、ユーザーは接続されている両方のスイッチのスイッチ管理画面に簡単にアクセスして表示でき、それぞれの IP アドレスが表示されます。 CMM は、大規模な導入のために隣接するシステムと通信することもでき、包括的な管理パッケージを提供します。
基本的に、CMM は SuperBlade X13 の管理を一連の個別タスクから、一貫した合理化されたプロセスに変換します。これは、各ブレードの管理を簡素化し、ラック全体の全体的なパフォーマンスと信頼性を向上させるコマンド センターを持つことに似ています。ブレードとラックの管理に対するこのアプローチは、特にスケーラビリティ、信頼性、時間の効率的利用が最優先されるデータセンターにおいて、ハードウェア管理チームに役立ちます。
Supermicro SuperBlade SBI-411E-5G – NVIDIA H100 パフォーマンス
ハイ パフォーマンス コンピューティングでは、NVIDIA H411 を搭載した SuperBlade SBI-5E-100G は、分散トレーニングとシングルブレード推論のための多用途かつ強力なツールです。この柔軟性は、さまざまなワークロードを管理するデータセンターなど、計算需要が大きく変動する場合に特に顕著です。
分散トレーニングのシナリオ
SuperBlade H100 ノードは、複雑な AI モデルに不可欠なプロセスである分散トレーニングに優れています。大規模なニューラル ネットワーク モデルが膨大なデータセットでトレーニングされるシナリオを想像してください。モデルのトレーニングは複数のブレードに分散され、各ブレードが H100 の高度な GPU のパワーを利用します。この分散によりトレーニング プロセスが高速化され、単一マシン上でより大きなモデルや非現実的なデータセットを処理できるようになります。
ここでは 200G InfiniBand が重要な役割を果たします。高帯域幅、低遅延の通信は、ブレード間の迅速かつ効率的なデータ交換が重要な分散トレーニングに不可欠です。この接続により、データと学習パラメータがすべてのブレード間で一貫して迅速に同期され、大量のデータ処理でよく発生するボトルネックが最小限に抑えられます。
ラボでの分散トレーニング
分散トレーニングは、大規模な機械学習および深層学習タスクへのアプローチ方法に革命をもたらしました。データは王様であり、膨大な量のトレーニング データを効率的に処理する能力がしばらくの間ボトルネックとなっていました。ここで、オープンソース ライブラリと、13 つの PCIe GPU を搭載した Supermicro SuperBlade X200 などの強力なハードウェアが、特に高速 XNUMXG InfiniBand ネットワーク経由で接続されている場合に、ゲームチェンジャーとなります。
TensorFlow や PyTorch などのオープンソース ライブラリは、あらゆるメーカーからのサポートと検証を受けて、機械学習コミュニティの定番となっています。これらは、機械学習モデルの開発とスケーリングのための、堅牢かつ柔軟で常に進化するフレームワークを提供します。自然言語処理やコンピューター ビジョンで使用されるような複雑なモデルをトレーニングする場合、計算要件は膨大になる可能性があります。ここで SuperBlade X13 が活躍します。

GPU 対応 X13 ブレード
SuperBlade X13 プラットフォームは高密度コンピューティング機能でよく知られており、HPC 環境に最適な選択肢となっています。 H411 PCIe GPU を搭載したダブル幅、ハーフハイトの SBI-5E-100G ブレードを使用する SuperBlade X13 は、シャーシごとに空冷で最大 10 個の GPU、液体冷却で最大 20 個の GPU をサポートし、膨大な並列処理タスクを処理します。 。重要なのは、ブレードはいつでも再構成できるため、ビジネスの AI ワークロードの変化に応じて非常に柔軟になるということです。
InfiniBand をシャーシに導入すると、非常に低いレイテンシーと高いスループットが実現し、データとモデルのパラメーターがノード間を絶えず行き来できるようになります。この高速ネットワークにより、特に大規模なデータ セットや複雑なモデル アーキテクチャを扱う場合、分散システムでボトルネックとなることが多いデータ転送時間が大幅に短縮されます。
このセットアップで分散トレーニング用のオープンソース ライブラリを統合するには、いくつかの重要な手順が必要でした。まず、GPU の機能を最大限に活用するために、最適化されたコンテナーとライブラリを選択する必要がありました。これは、これらのライブラリの CUDA 対応バージョンを使用することで構成され、GPU の処理能力を直接活用できるようにします。第 2 に、InfiniBand は NCCL (NVIDIA Collective Communications Library) と連携して、集合的なマルチ GPU/マルチノード通信に最適化された通信ルーチンを提供する必要があります。
実際には、このプラットフォーム上で分散トレーニング タスクを設定すると、各ノード (この場合は各 SuperBlade) がモデルの一部を実行します。モデル パラメーターはノード間でリアルタイムに同期され、InfiniBand ネットワークの速度と低遅延によって促進されます。この同期は、モデルの収束と精度にとって非常に重要です。
TensorRT と LLM
NVIDIA の TensorRT Large Language Model (LLM) は、人工知能と機械学習の大幅な進歩を表しています。効率と速度を重視して設計された TensorRT LLM は、複雑な AI タスクの処理において優れたパフォーマンスを発揮することで知られる、ブレード サーバー システムのエコシステムにおける重要なコンポーネントです。その設計は技術専門家や IT 意思決定者のニーズに応え、最新のデータセンターの厳しい計算要件を処理するための堅牢なソリューションを提供します。
NVIDIA の TensorRT LLM の技術フレームワークは、AI とディープ ラーニングの可能性を最大限に活用するように構築されています。ニューラル ネットワーク推論を最適化するように設計されており、高性能コンピューティング環境にとって理想的な選択肢となります。 TensorRT LLM は、トレーニングされたモデルを最適化されたランタイム エンジンに変換する機能によって顕著な効率を実現し、レイテンシを大幅に短縮し、スループットを向上させます。この機能は主に、高速なデータ処理と最小限の応答時間が重要なブレード サーバー システムにメリットをもたらします。さらに、NVIDIA の広範な GPU との互換性により汎用性が向上し、さまざまな IT 設定で拡張可能なソリューションになります。
NVIDIA の TensorRT LLM の際立った機能の 1 つは、分散トレーニングの機能です。この側面は、大規模な機械学習モデルが標準的な環境では特に重要です。分散トレーニングにより、TensorRT LLM は複数のシステムを活用し、計算負荷を効率的に分散できます。これにより、精度やパフォーマンスを損なうことなく、複雑なモデルのトレーニング時間が大幅に短縮されます。 TensorRT LLM は、さまざまなノード間で分散トレーニングを実行できるため、大規模な組織や研究施設でよく見られる広範な IT インフラストラクチャに高度に適応できます。さらに、この分散アプローチにより、高度な AI プロジェクトで共通の課題である大量のデータセットの処理が容易になり、より堅牢で洗練された AI モデルの開発が可能になります。
TensorRT LLM の最適化および高性能推論機能は、ブレード サーバーの高密度で相互接続された性質に理想的に適しています。 TensorRT LLM を活用することで、ブレード システムは複雑な AI モデルをより効率的に実行できるようになり、処理時間の短縮と遅延の削減につながります。これは、財務モデリングや医療診断など、リアルタイムのデータ分析と意思決定が不可欠なシナリオでは特に重要です。
Supermicro SuperBlade を、複数のシステムにわたる TensotRT LLM の分散トレーニング機能および適応性と組み合わせることで、技術専門家や IT 意思決定者にとっての資産の価値が高まります。この強力な組み合わせを活用することで、組織は大規模な AI プロジェクトを効率的に処理し、より高速な処理、遅延の削減、およびスケーラブルな AI 導入を実現できます。これを容易にするために、シャーシ内で Quantum InfiniBand ネットワークを使用します。
MLPerf を使用したシングルブレード推論パフォーマンス ベンチマーク
GPU ブレードのノードごとに 1 つの CPU と 1 つの GPU のアーキテクチャは、AI およびデータ分析ワークロード、特にシングルブレード推論タスクに潜在的な利点をもたらします。この設計により、処理能力のバランスの取れた比率が提供され、GPU の機能を最適に活用できるようになります。
シングルブレード推論のパフォーマンスをテストするために、オフラインとサーバーの両方で MLPerf 3.1 推論を実行しました。 BERT (Bidirectional Encoder Representations from Transformers) は、主に質問応答、言語理解、文分類などの自然言語処理タスクに使用されるトランスフォーマー ベースのモデルです。 ResNet-50 は、画像分類タスクに広く使用されている畳み込みニューラル ネットワーク (CNN) モデルです。これは、50 層の ResNet モデルのバリアントであり、深いアーキテクチャでありながら効率的なパフォーマンスで知られています。
単一ノードの推論 | |
---|---|
ResNet-50 – オフライン: | 46,326.6 |
ResNet-50 – サーバー: | 47,717.4 |
BERT K99 – オフライン: | 3,702.4 |
BERT K99 – サーバー: | 4,564.11 |
- オフライン モード: このモードでは、すべてのデータを同時に処理できる場合のシステムのパフォーマンスを測定します。これはバッチ処理に似ており、システムは大規模なデータセットを単一のバッチで処理します。このモードは、レイテンシーが主な懸念事項ではなく、スループットと効率が主な関心事であるシナリオでは非常に重要です。
- サーバー モード: 対照的に、サーバー モードでは、リクエストが一度に 1 つずつ届く、実際のサーバー環境を模倣したシナリオでシステムのパフォーマンスを評価します。このモードは遅延に敏感で、システムが各リクエストにどれだけ早く応答できるかを測定します。これは、Web サーバーや対話型アプリケーションなど、即時応答が必要なリアルタイム アプリケーションにとって非常に重要です。
推論タスクでは、GPU は主に計算上の負荷の高い作業を担当します。このシステムは、専用 CPU と組み合わせることで、共有 CPU やプラットフォーム リソースによるボトルネックにならずに GPU が効率的に動作できるようにします。これは、ライブ ビデオ分析やオンザフライ言語翻訳などのリアルタイム データ処理シナリオでは非常に重要です。
興味深いことに、この 1:1 の CPU と GPU の比率により、パフォーマンスの予測可能性が高まることがわかりました。各ノードは独立して動作するため、一貫した処理時間を確保し、推論タスクのばらつきを軽減します。この予測可能性は、応答時間が重要な環境では非常に重要です。
全体として、SuperBlade H100 の XNUMX CPU 対 XNUMX GPU 構成は、両方のコンポーネントの効率を最大化します。これにより、各ノードが独立したモデルとプロセスを動作させて、推論タスクに最適なパフォーマンスを提供することが保証されます。このアーキテクチャにより、リアルタイム データ処理の要求を効率的かつ確実に処理するシステムの能力が強化されます。
適応型ワークロード管理
すべての情報を考慮すると、SuperBlade システムの適応性が高いことは明らかです。推論の需要が高まるピーク時間帯には、これらのタスクを処理するためにより多くの GPU 対応ブレードを動的に割り当てることができ、リアルタイム リクエストの効率的な処理が保証されます。逆に、オフピーク時間には、これらのリソースを AI モデルの微調整や、時間に依存しないタスクの処理に集中させることができます。この柔軟性により、リソースの最適な利用が可能になり、SuperBlade システムが堅牢で効率的にさまざまな計算負荷を管理できるようになります。
200Gのメリット NVIDIA クアンタム これらのシナリオにおける InfiniBand
SuperBlade H200 システムに 100G InfiniBand を組み込むことで、高速データ転送のバックボーンが提供され、これらのシナリオが強化されます。分散トレーニングにより、ブレード間でのデータのより高速な同期が可能になります。これは、トレーニング プロセスの一貫性と速度を維持するために不可欠です。シングルブレード推論により、大規模なデータセットを処理のためにブレードに迅速に移動できるようになり、待ち時間が短縮され、スループットが向上します。
Quantum InfiniBand はどうなっているのか?
ハイパフォーマンス コンピューティングの基礎である InfiniBand は、スーパーコンピューティング クラスター内で増え続けるデータ転送と通信の需要に対処するために当初開発された高速相互接続テクノロジです。この高度に専門化されたネットワーキング ソリューションは長年にわたって進化しており、極めて低い遅延と高帯域幅を提供するため、HPC 環境内のサーバー、ストレージ システム、その他のコンポーネントの接続に最適です。
出荷された Supermicro X13 ブレードには、200G InfiniBand ネットワーキングと 25G イーサネットが装備されていました。これは、分散トレーニングやその他の遅延やデータ集約型のタスクに取り組む場合に特に役立ちました。上記の非常に変動性の高い (そして時間のかかる) トレーニング エポックをいくつか行った後、ブレード シャーシの無数のピンに隠された InfiniBand ネットワークの現実世界のテスト メトリックを提供するには、別のメトリックが必要であると判断しました。実行ごとの微調整の変動が極端に大きいため、これらのタスクにこのようなマルチノード システムを使用した場合の影響、または影響の欠如を定量化しようとするのは無責任です。結果は驚くべきものでした。
入力します NVIDIA クラスターキット。 NVIDIA ClusterKit は、マルチノード GPU クラスターの可能性を最大限にテストするために設計されたツールキットで、AI および HPC 実践者にワークロードのパフォーマンス、効率、およびスケーラビリティを測定するための興味深いツール スイートを提供します。
私たちは ClusterKit の 2 つの主要なツールに焦点を当てました。
- 帯域幅テスト: 帯域幅は HPC における重要な指標であり、一定時間内にネットワーク上で送信できるデータの量を反映します。 NVIDIA ClusterKit を利用して、Supermicro SuperBlade セットアップのノード間の双方向 (二重) 帯域幅を測定しました。二重測定は、データが両方向に同時に流れる現実のシナリオを反映しているため、不可欠です。
- レイテンシー テスト: レイテンシー、つまりメッセージがネットワーク内のあるポイントから別のポイントに移動するのにかかる時間も、重要なパフォーマンス メトリックの 1 つです。密結合された HPC アプリケーションでは、低遅延が重要です。デュプレックスの遅延を正確に測定する NVIDIA ClusterKit の機能により、SuperBlade 上の InfiniBand ネットワークの応答性に関する貴重な洞察が得られました。
ClusterKit を使用した SuperBlade InfiniBand および H100 GPU ベンチマーク結果
このセクションに進むと、各ノードが一意のタグ (smci-a7、smci-a1 など) によって識別されることを理解することが重要です。 -1、-3、-5、および -7 の表記はホスト名で、シャーシ内のブレードの物理的な位置を反映しています。
最初のテストは、クラスター内のさまざまなノード間の双方向帯域幅の測定に焦点を当てました。このテストでは、メッセージ サイズ 8,388,608 バイトを 16 回繰り返しました。
GPU ダイレクト テスト
まず、GPU Direct テストを見てみましょう。これは、この記事の執筆時点で利用可能なすべての最新かつ最高の SDK とツールキットを利用した、ブレード プラットフォームの絶対最大スループットを報告します。テストでは二重の帯域幅が報告されることに注意することが重要です。これは、帯域幅が両方向の合計であることを意味します。単一方向は約半分になります。重要な点は、帯域幅の制限要因は 200G InfiniBand であるということですが、後で説明するように、これはそれほど心配する必要はありません。

Divyansh Jain による Supermicro SuperBlades での Infiniband ClusterKit テスト
以下のマトリックスは、GPUDirect を使用した双方向帯域幅を示しています。
帯域幅マトリックス MB/秒
ランク/ノード | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.0 | 49,221.6 | 49,193.6 | 49,223.6 |
1 (smci-a1) | 49,221.6 | 0.0 | 49,219.5 | 49,142.7 |
2 (smci-a3) | 49,193.6 | 49,219.5 | 0.0 | 49,219.7 |
3 (smci-a5) | 49,223.6 | 49,142.7 | 49,219.7 | 0.0 |
レイテンシμ秒
次に現れたのは、マイクロ秒単位で測定される驚くべき遅延テストの結果でした。 GPU Direct テストは、ホストに対してローカルに複数の GPU がある場合と同様に良好でした。
ランク | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.00 | 1.38 | 1.24 | 1.38 |
1 (smci-a1) | 1.38 | 0.00 | 1.25 | 1.36 |
2 (smci-a3) | 1.24 | 1.25 | 0.00 | 1.32 |
3 (smci-a5) | 1.38 | 1.36 | 1.32 | 0.00 |
GPU ネイバーテスト
GPU 隣接テストに移ります。ここでも、帯域幅は二重で報告されます。これは、帯域幅が両方向の合計であることを意味します。単一方向は約半分になります。以下のマトリックスは双方向の帯域幅を示しています。 H100カードの間 1 つのノードのそれぞれにあります。これは、GPUDirect ライブラリのアクセラレーションを使用していません。 3、5、7、および XNUMX の表記はホスト名で、シャーシ内のブレードの物理的な位置を反映しています。

SBS-IBS-H4020 HRD InfiniBand スイッチ
GPU ネイバー帯域幅 (MB/秒)
「GPU 隣接帯域幅」テストは、同じシステムまたはノード内の隣接する GPU 間のデータ転送速度を測定します。このメトリクスは、マルチ GPU 並列処理タスクなど、近接した GPU 間で頻繁にデータ交換を必要とするアプリケーションにとって重要です。帯域幅が大きいほどデータ転送が速くなり、GPU を多用するアプリケーションのパフォーマンスが向上する可能性があります。
GPU | 帯域幅 (MB/秒) |
---|---|
smci-a7 と smci-a1 | 30,653.9 |
smci-a3 と smci-a5 | 30,866.7 |
平均 | 30,760.3 |
GPU メモリ帯域幅 (MB/秒)
「GPU メモリ帯域幅」テストは、GPU 自体が GPU のメモリからデータを読み取ったり、GPU のメモリにデータを保存したりできる速度を評価します。この帯域幅は、特に大規模なデータセットが関与するアプリケーションや、画像処理、シミュレーション、深層学習などのタスクで高スループットを必要とするアプリケーションにとって、パフォーマンス上の重要な側面です。メモリ帯域幅が大きいほど、GPU が大量のデータを効率的に処理する能力が優れていることを示します。このテストにより、X13 ブレードが H100 GPU を問題なく維持できることがわかりました。
GPU | 帯域幅 |
---|---|
smci-a7-GPU0 | 55,546.3 |
smci-a1-GPU0 | 55,544.9 |
smci-a3-GPU0 | 55,525.5 |
smci-a5-GPU0 | 55,549.8 |
平均 | 55,541.6 |
GPU 間の帯域幅 (MB/秒)
このテストでは、異なる GPU 間の双方向の帯域幅を測定します。これは、GPU 間のデータ転送速度が全体の処理時間に大きな影響を与える可能性がある、複数の GPU に分散された複雑な計算を伴うタスクには不可欠です。 GPU 間の高い帯域幅は、マルチ GPU ワークフローや並列コンピューティング タスクの高速化に役立ちます。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7-GPU0 | 0.0 | 30,719.8 | 30,817.7 | 30,823.8 |
smci-a1-GPU0 | 30,719.8 | 0.0 | 30,710.0 | 30,670.9 |
smci-a3-GPU0 | 30,817.7 | 30,710.0 | 0.0 | 30,835.1 |
smci-a5-GPU0 | 30,823.8 | 30,670.9 | 30,835.1 | 0.0 |
平均 | 30,762.9 |
GPU0 からリモート ホストへの帯域幅 (MB/秒)
「GPU0 からリモート ホストへの帯域幅」テストは、プライマリ GPU (GPU0) とリモート ホスト システム間のデータ転送速度を定量化します。これは、メイン GPU とネットワーク システムの他の部分の間でデータを頻繁に移動する必要があり、分散ディープ ラーニング トレーニングやリモート サーバーでのデータ分析などのタスクに影響を与える分散コンピューティング環境では不可欠です。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.0 | 30,804.3 | 30,753.5 | 30,768.1 |
smci-a1 | 30,804.3 | 0.0 | 30,732.9 | 30,679.7 |
smci-a3 | 30,753.5 | 30,732.9 | 0.0 | 30,970.8 |
smci-a5 | 30,768.1 | 30,679.7 | 30,970.8 | 0.0 |
GPU ネイバーのレイテンシー (μ秒)
「GPU ネイバー レイテンシー」テストは、少量のデータが 1 つの GPU から隣接する GPU に移動するのにかかる時間を測定します。特に、リアルタイム レンダリングや複雑な科学シミュレーションなど、リアルタイム データ処理や GPU 間の高速通信を必要とするアプリケーションでは、レイテンシが低いことが望まれます。
GPU | レイテンシ |
---|---|
smci-a7 と smci-a1 | 11.03 |
smci-a3 と smci-a5 | 11.01 |
GPU からリモート ホストへの遅延 (μ秒)
「GPU0 からリモート ホストへの遅延」テストは、プライマリ GPU (GPU0) とリモート ホスト システム間のデータ通信の遅延を測定します。この遅延は分散コンピューティング環境における重要な要素であり、クラウドベースのゲームやリモート データ処理など、GPU とリモート システム間の対話に依存するアプリケーションの応答性と効率に影響を与えます。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.00 | 3.35 | 3.36 | 3.33 |
smci-a1 | 3.35 | 0.00 | 3.41 | 3.37 |
smci-a3 | 3.36 | 3.41 | 0.00 | 3.37 |
smci-a5 | 3.33 | 3.37 | 3.37 | 0.00 |
平均 | 3.37 |
NVIDIA ClusterKit テストでは、Supermicro SuperBlades 上の InfiniBand ネットワークの優れたパフォーマンス メトリクスが明らかになりました。二重帯域幅テストでは、高いデータ転送速度が明らかになり、InfiniBand の機能が効率的に利用されていることを示しています。同様に、遅延テストでは最小限の遅延が示され、要求の厳しい HPC タスクに対するネットワークの適合性が強調されました。これは、このプラットフォームがスタンドアロン システムと同等のパフォーマンスを発揮し、はるかに高密度のコンピューティングとネットワークをすべて統合されたソリューションで提供することを意味します。
スタンドアロン GPU サーバーのテスト
次に、4 台の NVIDIA H100 を Supermicro 4U AMD EPYC GPU サーバー 4 つすべてを同時にサポートできるため、GPU 間および遅延をテストすることにしました。クロスブレード通信を行わずに、このサーバー内のカードのパフォーマンス プロファイルを理解しようとしているだけであることを理解することが重要です。この 4U サーバーは、サポートできるカードの点では柔軟ですが、Supermicro X13 SuperBlade シャーシが提供するような極端な構成可能性はありません。もちろん、Supermicro はいつものように、水冷ソケット付き GPU も含め、あらゆるアプリケーション向けのソリューションを提供します。
まず、4 つのプラットフォーム内の XNUMX つの GPU のピアツーピア帯域幅を見てみましょう。
書き込み帯域幅 (GB/秒) – 単方向
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 54.29 | 39.50 | 40.51 |
GPU1 | 54.60 | 0.00 | 40.55 | 40.22 |
GPU2 | 40.60 | 38.73 | 0.00 | 54.03 |
GPU3 | 40.99 | 40.33 | 53.79 | 0.00 |
読み取り帯域幅 (GB/秒) – 単方向
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 53.17 | 39.23 | 35.69 |
GPU1 | 53.70 | 0.00 | 36.96 | 41.02 |
GPU2 | 36.28 | 39.88 | 0.00 | 53.32 |
GPU3 | 40.40 | 37.08 | 53.68 | 0.00 |
ここで重要なのは、GPU0 と GPU1 の GPU は 2 つの NUMA ノード上にあり、GPU3 と GPUXNUMX は別の NUMA ノード上にあるということです。ここでは、NUMA ノードを経由することがパフォーマンスに及ぼす影響を明確に確認できます。
コピー エンジン (CE) – 書き込みレイテンシー (us)
最後に、GPU 間のレイテンシーを測定します。
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 1.67 | 1.64 | 1.64 |
GPU1 | 1.57 | 0.00 | 1.61 | 1.61 |
GPU2 | 1.66 | 1.69 | 0.00 | 1.65 |
GPU3 | 1.65 | 1.66 | 1.61 | 0.00 |
予想どおり、すべての GPU を単一のプラットフォームに移動すると、Blade の 2G IB 接続と比較して 200 倍の帯域幅が得られます。ここでの帯域幅はアプリケーションの考慮事項になる可能性がありますが、マイクロ秒のオーダーで動作するレイテンシの数値について話す場合、オールインワン シャーシの場合の GPU 間の平均 1.6us から GPU への移行に大きな変化はありません。 PCIe バス、IB スイッチを経由して GPU に戻る必要がある場合のブレードの 1.5 μs は驚異的です。しかし、それは 完全な話。
まとめ
Emerald Rapids CPU と NVIDIA H13 GPU を備えた Supermicro X100 SuperBlade は、ブレード サーブの進化として歓迎されています。その機能は、計算集約型のさまざまなタスクに拡張されており、データ分析から AI やクラウド コンピューティングに至るまでの業界にとって多用途かつ堅牢なソリューションとなっています。ハイパフォーマンス コンピューティングの需要が高まり続ける中、X13 はこれらの課題に対応する準備ができており、サーバー テクノロジにおける革新と卓越性に対する Supermicro の取り組みを実証しています。
テストからあらゆることを考慮すると、全体的な観点から見たそのユニークで適応性の高い性質のおかげで、私たちはこのプラットフォームに特に興味を持っています。プラットフォームのアプリケーションをコンテキスト化することが重要です。
研究部門で、ラックに Supermicro X13 Blade システムを搭載し、ハイコンピューティング能力を最大限に発揮できるシナリオを想像してください。プラットフォームに組み込まれた集中管理インフラストラクチャを使用して、ブレードとプラットフォーム自体を制御するだけでなく、他の機器の制御、ネットワーキング、管理のハブとしても使用できます。十分に強力なストレージ サーバー ネストを SuperBlade に接続して、データを大量に消費する GPU にフィードを供給すると、すべてのビットをライン スピードでモデルに取り込むことができます。この架空のシナリオでは、日中はすべての GPU をさまざまな研究者が利用し、時間が来たらすべてのブレードを InfiniBand 経由でリンクして連携させることができます。
CPU と GPU の 1 対 1 の関係の帯域幅テストでは、フル装備のブレード シャーシを想定した場合、ブレード システムでアドイン カード GPU を備えた単一サーバーよりも優れたパフォーマンスを発揮できることもわかりました。適切に設計された分散トレーニング ワークフローを使用すると、基本的にすべての GPU を 1 つのノードに配置した場合と同等かそれ以上のパフォーマンスが得られますが、今では 2 つの役割を簡単に実行できるプラットフォームを手に入れることができ、GPU の初期コストを半分に抑えることができます。 。最新の CPU のサポートのおかげで、実装されたら、HDR InfiniBand から NDR に移行することを楽しみにしています。そうすることで、SuperBlade は単一の GPU サーバー プラットフォームで得られる以上のパフォーマンスを得ることができるからです。
Supermicro X13 SuperBlade シャーシと GPU ブレードは、進化する、または定期的に変化する AI ニーズを持つユーザーにとって、適応性が高く堅牢な選択肢です。このプラットフォームを長期間使用するうちに、DRAM、CPU、GPU の変更、または AI の世界で知られる「別の日」のニーズに遭遇しましたが、これらはすべてプラットフォームによって簡単に処理されます。全体として、このプラットフォームは堅固であり、他に求められることはほとんどなく、AI 分野の魅力的で強力なアプライアンスとして機能します。競合システムの価格を考慮すると、ブレードの柔軟性を活用できれば、これはほぼ無敵です。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード