Supermicro AS-4125GS-TNRT は、4 つの AMD EPYC 9004 シリーズ CPU、PCIe Gen5、および 8 つのダブル幅 GPU をサポートする XNUMXU 空冷 GPU サーバーです。
Supermicro は、このレビューで説明する時間よりも多くの形状とサイズの GPU サーバーを長い間提供してきました。今回は、4 つの AMD EPYC 9004 シリーズ CPU、PCIe Gen5、および 12 枚のダブル幅または 4125 枚のシングル幅アドイン GPU カードの選択をサポートする、比較的新しい 100U 空冷 GPU サーバーを紹介します。 Supermicro はこれらのサーバーの Intel ベースのバージョンも提供していますが、AMD ベースの AS-210GS-TNRT ファミリは、このクラスで NVIDIA HXNUMX および AMD Instinct MiXNUMX GPU をサポートする唯一のサーバーです。
Supermicro AS-4125GS-TNRT GPU サーバーには、オンボード 10GbE ネットワーキング、帯域外管理、9 個の FHFL PCIe Gen5 スロット、24 個の 2.5 インチ ベイ (うち 4 個は NVMe、残りは SATA/SAS) など、他にもいくつかのハードウェア ハイライトがあります。チタンレベルの 2000W 冗長電源も 2 つあります。マザーボードには、ブート用の M.XNUMX NVMe スロットが XNUMX つあります。
本題に入る前に、Supermicro が AS-4125GS-TNRT サーバー構成の他の 4125 つのバリエーションを提供していることにも触れておく価値があります。同じマザーボードを使用していますが、AS-1GS-TNRT10 は、最大 8 個のダブル幅 GPU と 4125 個の NVMe SSD ベイをサポートする PCIe スイッチを備えたシングル ソケット構成です。 AS -2GS-TNRTXNUMX は、PCIe スイッチを備えたデュアル プロセッサ構成で、ほぼ同じものです。
Supermicro AS-4125GS-TNRT は、その設計と PCIe スイッチを備えたモデルを選択できる機能により、構成に関係なく、非常に柔軟です。このスタイルの GPU サーバーは、組織が小規模から始めて拡張したり、さまざまなニーズに合わせて GPU を組み合わせたり、好きなことを何でもできるため、人気があります。ソケット付き GPU システムは、大規模な AI ワークロード向けに GPU をより適切に集約する機能をもたらしますが、ワークロードの柔軟性ではアドイン カード システムに勝るものはありません。
さらに、これは一部の人にとって冒涜と思われるかもしれませんが、Supermicro アドイン カード GPU サーバーは、同じボックス内の AMD と NVIDIA のカードでも使用できます。息を呑むかもしれませんが、多くの顧客は、一部のワークロードは Instinct を好み、他のワークロードは NVIDIA GPU を好むことに気づいています。最後に、ぎっしり詰まった GPU サーバーほど人気はありませんが、これらのスロットは単なる PCIe スロットであることは言及する価値があります。このリグでは、顧客が FPGA、DPU、またはその他の形式のアクセラレータを好むシナリオを想像するのは不合理ではありません。繰り返しますが、柔軟性はこの設計の核となる大きな利点です。
レビュー目的のために、Supermicro AS-4125GS-TNRT はベアボーン状態で提供され、CPU、DRAM、ストレージ、そしてもちろん GPU を追加できる状態にありました。このレビューのために、Supermicro と協力して 4x NVIDIA H100 GPU を借用しました。
Supermicro AS-4125GS-TNRTの仕様
仕様 | |
CPU | 各最大 5C / 128T のデュアル ソケット SP256 CPU |
メモリ | 最大 24x 256GB 4800MHz ECC DDR5 RDIMM/LRDIMM (合計6TBメモリ) |
GPU |
|
拡張スロット | 9x PCIE 5.0 x16 FHFL スロット |
直流安定化電源 | 4x 2000W 冗長電源 |
ネットワーキング | 2x 10GbE |
Storage |
|
マザーボード | スーパーH13DSG-O-CPU |
マネジメント |
|
セキュリティ |
|
シャーシサイズ | 4U |
Supermicro AS-4125GS-TNRT レビュー構成
私たちは Supermicro のシステムをベアボーンとして構成しましたが、ほとんどの場合、これは構成済みのシステムとして販売されています。ラボに到着したら、最初に 9374 つの AMD EPYC 32F 64c XNUMXt CPU を搭載しました。これらは、高いクロック速度と優れたマルチコア パフォーマンスを理由に選択されました。
アクセラレータに関しては、古いインテル Phi コプロセッサーから最新の H100 PCIe カード、ハイエンド RTX 6000 ada ワークステーション GPU まで、選択できる棚がかなりありました。私たちは、生の計算能力と効率性および多用途性のバランスをとることを目指しました。最終的に、最初のテストでは 6000 つの NVIDIA RTX A100 GPU から開始し、次に XNUMX つの NVIDIA HXNUMX PCIe カードに移行することにしました。この組み合わせは、Supermicro プラットフォームの柔軟性と NVIDIA アクセラレータ カードを示しています。
RTX A6000 は、主にグラフィックスを多用するワークロードでのパフォーマンスを考慮して設計されており、Ampere アーキテクチャにより AI および HPC アプリケーションでも優れています。 48 GB の GDDR6 メモリを備えているため、大規模なデータセットや複雑なシミュレーションの処理に最適です。 10,752 個の CUDA コアと 336 個の Tensor コアにより、AI およびディープラーニングのテストに不可欠な高速コンピューティングが可能になります。
一方、NVIDIA H100 PCIe カードは、主に AI ワークロード向けに設計された、Hopper アーキテクチャ ラインナップの最新の出荷カードです。各カードには、80 億個の驚異的なトランジスタ、80GB の HBM3 メモリ、および GPT-4 のような AI モデル向けに調整された画期的なトランスフォーマー エンジンが搭載されています。 H100 の第 4 世代 Tensor コアと DPX 命令は、AI の推論とトレーニングのタスクを大幅に強化します。
これらの GPU を Supermicro ベアボーン システムに統合することで、これらのハイエンド コンポーネントからの大幅な消費電力と発熱を考慮して、最適な熱管理と電力配分を確保することに重点を置きました。 Supermicro シャーシは、そのような構成を公式にはサポートしていませんが、セットアップに対応するのに十分な多用途性があることが証明されました。 A6000 の熱を抑えるには、かご型ファンの設計によりカード幅分の間隔を空ける必要がありましたが、H100 はパススルーのパッシブ冷却フィンを搭載して収納することができます。
私たちのベンチマーク スイートには、HPC と AI 固有のユースケースが混在していました。これらは、従来のベンチマーク ワークロードから、畳み込みニューラル ネットワーク モデルを使用した AI トレーニングおよび推論タスクまで多岐にわたります。私たちは、これらのアクセラレータを限界まで押し上げることを目指し、その実際のパフォーマンスと効率、拡張性、および Supermicro A+ サーバーとの統合の容易さを評価しました。
Supermicro AS-4125GS-TNRT GPU テスト
ラボで CNN の基本モデルに取り組んでいる間、NVIDIA の主力 GPU を使用していく中で、古いものの高機能な GPU のペアに関するワークステーション レベルのトレーニングから始めました。 RTX8000 GPU。
AI パフォーマンス分析中に、NVIDIA RTX 8000 から 6000 つの RTX A100 GPU、そして最終的に XNUMX つの NVIDIA HXNUMX PCIe カードに移行するという、機能の驚くべき、しかし予想通りの進歩が観察されました。この進歩は、これらのアクセラレータの真の能力と、AI ワークロードにますます重点が置かれるようになった過去数年間の NVIDIA アクセラレータの進化を示しました。
RTX 8000 から始めて、まともなパフォーマンス レベルが確認されました。この設定では、6.36 GB の画像データセットでの AI モデルのトレーニングに、エポックごとに約 45 分かかりました。ただし、バッチ サイズと処理できるタスクの複雑さの点で、RTX 8000 の限界は明らかでした。バッチ サイズが小さくなるという制約があり、効果的にトレーニングできるニューラル ネットワーク モデルの複雑さに限界がありました。
6000 つの RTX A6000 GPU への移行により、パフォーマンスが大幅に向上しました。 A6 の優れたメモリ帯域幅と大容量の GDDRXNUMX メモリにより、同じエポック期間とモデルの複雑さを維持しながら、バッチ サイズを XNUMX 倍にすることができました。この改善により、トレーニング プロセスが改善され、トレーニング時間を延長することなく、より洗練されたモデルを実験できるようになりました。
ただし、最も顕著な進歩は、100 枚の NVIDIA H100 PCIe カードの導入によってもたらされました。 Hopper アーキテクチャの強化された AI 機能を活用することで、これらのカードによりバッチ サイズを再び 4 倍にすることができました。さらに印象的なのは、エポック期間に目立った変更を加えることなく、AI モデルの複雑性を大幅に高めることができたことです。この機能は、複雑な AI 操作を効率的に処理するために最適化された Transformer Engine や第 XNUMX 世代 Tensor コアなど、HXNUMX の高度な AI 固有の機能の証です。
これらのテスト全体を通じて、6.36 GB の画像データセットとモデル パラメーターが一貫したベンチマークとして機能し、さまざまな GPU 構成間でパフォーマンスを直接比較できるようになりました。 RTX 8000 から A6000、そして H100 への進化は、生の処理能力の向上と、速度や効率を犠牲にすることなく、より大規模で複雑な AI ワークロードを処理する GPU の能力を強調しました。そのため、これらの GPU は、最先端の AI 研究や大規模な深層学習アプリケーションに特に適しています。
私たちのテストで使用された Supermicro サーバーは、CPU への直接 PCIe 接続を備えており、PCIe スイッチの必要性を回避しています。この直接接続により、各 GPU に CPU への専用経路が確保され、高速かつ効率的なデータ転送が促進されます。このアーキテクチャは、AI や HPC の一部のワークロードにおいて、レイテンシーを最小限に抑え、帯域幅の使用率を最大化するために非常に重要であり、すべての作業がサーバーに対してローカルである場合に、AI モデルのトレーニングや複雑な VDI 環境などの高スループットのタスクを処理する場合に特に有益です。
まとめ
Supermicro GPU A+ サーバー AS-4125GS-TNRT サーバーの拡張性と柔軟性が、ここでの最大の特徴です。これは、AI、VDI、またはその他の高パフォーマンス タスクのいずれにおいても、進化するワークロードの需要に適応する必要があるお客様にとって特に有益です。控えめな構成から始めて、ユーザーはエントリーレベルの AI または VDI タスクを効果的に処理でき、小規模なワークロードや、AI および仮想デスクトップ インフラストラクチャに取り組み始めたばかりのユーザーにコスト効率の高いソリューションを提供します。この初期セットアップにより、強固でスケーラブルな基盤が提供され、ユーザーは基本的かつ重要な AI および VDI アプリケーションに取り組むことができます。
さらに、多くの企業がソケット付き H100 GPU を活用したいと考えていることはわかっていますが、これらのプラットフォームの待ち時間は非常に長く、多くの情報源によると待ち時間は 40 年近くであると言われています。サプライ チェーンの物流は、このサーバーの優れた点を強調しており、あらゆるものに対応できます。 L4125S GPU は「現在」利用可能であるため、お客様はこのコンボを使用することで、少なくとも AI ワークロードをすぐに実行できるようになります。また、ニーズの変化に応じて、顧客はカードを簡単に交換できます。これにより、Supermicro GPU A+ サーバー AS-XNUMXGS-TNRT サーバーは、当面のニーズに対応するだけでなく、将来も保証され、進化する技術情勢に対応できることが保証されます。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード