ホーム Enterprise NVIDIA DGX GH200: 生成 AI のゲームチェンジャー

NVIDIA DGX GH200: 生成 AI のゲームチェンジャー

by ジョーダン・ラナス

電光石火で進化し続ける人工知能 (AI) の状況において、NVIDIA DGX GH200 はイノベーションの先駆者として登場します。この強力なシステムは、最も要求の厳しい AI ワークロードを念頭に置いて設計されており、企業による生成 AI へのアプローチ方法に革命をもたらす完全なソリューション セットです。 NVIDIA は、GH200 がどのように連携し、この最新世代の GPU テクノロジーで AI パフォーマンスのピークがどのようなものになるかを示す新しい詳細を発表しました。

電光石火で進化し続ける人工知能 (AI) の状況において、NVIDIA DGX GH200 はイノベーションの先駆者として登場します。この強力なシステムは、最も要求の厳しい AI ワークロードを念頭に置いて設計されており、企業による生成 AI へのアプローチ方法に革命をもたらす完全なソリューション セットです。 NVIDIA は、GH200 がどのように連携し、この最新世代の GPU テクノロジーで AI パフォーマンスのピークがどのようなものになるかを示す新しい詳細を発表しました。

NVIDIA DGX GH200 ラック

NVIDIA DGX GH200: 完全なソリューション

DGX GH200 は、単なる豪華なラック ハードウェアではありません。これは、ハイ パフォーマンス コンピューティング (HPC) と AI を組み合わせた包括的なソリューションです。最も複雑な AI ワークロードを処理できるように設計されており、比類のないパフォーマンス レベルを提供します。

DGX GH200 は、NVIDIA GH200 Grace Hopper スーパーチップ、NVIDIA NVLink-C2C、NVIDIA NVLink スイッチ システム、NVIDIA Quantum-2 InfiniBand を含む完全なハードウェア スタックを XNUMX つのシステムにまとめます。 NVIDIA は、モデルの開発を加速するために特別に設計された最適化されたソフトウェア スタックでこれらすべてを支援しています。

NVIDIA GH200 Grace Hopper スーパーチップの仕様
製品仕様 詳細
GPU ホッパー 96 GB HBM3、4 TB/秒
CPU 72 コアアームネオバースV2
CPUメモリ 最大 480 GB/秒で最大 5 GB LPDDR500、DDR4 の 5 倍のエネルギー効率
CPU から GPU へ NVLink-C2C 900 GB/秒の双方向コヒーレント リンク、PCIe Gen5 の 5 倍のエネルギー効率
GPU から GPU NVLink 900 GB/秒双方向
高速I/O 4x PCIe Gen5 x16 (最大 512 GB/秒)
TDP 450W~1000Wまで設定可能

拡張GPUメモリ

拡張 GPU メモリ (EGM) 機能を備えた NVIDIA Grace Hopper スーパーチップは、独自の HBM3 および LPDDR5X メモリ サブシステムの容量を超える、大規模なメモリ フットプリントを持つアプリケーションを処理できるように設計されています。この機能により、GPU はシステム内のすべての CPU および GPU から最大 144 TB のメモリにアクセスでき、LPDDR5X 速度でデータのロード、ストア、アトミック操作が可能になります。 EGM は標準の MAGNUM IO ライブラリで使用でき、NVIDIA NVLink および NVLink-C2C 接続を介して CPU および他の GPU からアクセスできます。

DGX GH200 NVLink メモリは、接続された Grace Hopper スーパーチップ間でアクセス

接続された Grace Hopper スーパーチップ全体での NVLink メモリ アクセス

NVIDIA によると、NVIDIA Grace Hopper スーパーチップの拡張 GPU メモリ (EGM) 機能は、膨大なメモリ容量を提供することで大規模言語モデル (LLM) のトレーニングを大幅に強化します。これは、LLM は通常、パラメーター、計算を保存し、トレーニング データセットを管理するために膨大な量のメモリを必要とするためです。

システム内のすべての CPU と GPU から最大 144 TB のメモリにアクセスできるため、モデルをより効率的かつ効果的にトレーニングできます。メモリ容量が大きければ、モデルのパフォーマンスが向上し、モデルがより複雑になり、より大規模で詳細なデータセットを操作できるようになり、これらのモデルの精度と実用性が向上する可能性があります。

NVLinkスイッチシステム

大規模言語モデル (LLM) の要求がネットワーク管理の限界を押し広げ続ける中、NVIDIA の NVLink スイッチ システムは引き続き堅牢なソリューションです。このシステムは、第 256 世代 NVLink テクノロジーと第 200 世代 NVSwitch アーキテクチャの力を利用して、DGX GH25.6 システム内の XNUMX 個の NVIDIA Grace Hopper スーパーチップへの高帯域幅、低遅延の接続を実現します。その結果、XNUMX Tbps という驚異的な全二重帯域幅が実現し、データ転送速度が大幅に向上しました。

第 200 世代 NVLink テクノロジーを使用した DGX GHXNUMX スーパーコンピューター NVSwitch の論理概要

DGX GH200 スーパーコンピュータ NVSwitch 第 4 世代 NVLink ロジックの概要

DGX GH200 システムでは、すべての GPU が基本的におせっかいなネイバーであり、NVLink ネットワーク上のピアの HBM3 および LPDDR5X メモリにアクセスできます。 NVIDIA Magnum IO アクセラレーション ライブラリと組み合わせることで、この「おせっかいな近所」は GPU 通信を最適化し、効率的にスケールアップし、有効なネットワーク帯域幅を XNUMX ​​倍にします。したがって、LLM トレーニングが強化され、通信オーバーヘッドが増加する一方、AI オペレーションは大幅に強化されています。

DGX GH200 の NVIDIA NVLink スイッチ システムは、多数の GPU 間の高帯域幅、低遅延の接続を容易にすることで、LLM などのモデルのトレーニングを大幅に強化できます。これにより、GPU 間のデータ共有がより高速かつ効率的になり、モデルのトレーニング速度と効率が向上します。さらに、各 GPU が NVLink ネットワーク上の他のスーパーチップからピア メモリにアクセスできるため、使用可能なメモリが増加します。これはパラメータが大きい LLM にとって重要です。

Grace Hopper スーパーチップの優れたパフォーマンスは、AI 計算の領域におけるゲームチェンジャーであることは疑いの余地がありませんが、このシステムの本当の魔法は NVLink で起こります。NVLink では、多数の GPU にわたる高帯域幅、低遅延の接続により、データの共有と効率が重要になります。まったく新しいレベルへ。

DGX GH200 システムアーキテクチャ

DGX GH200 スーパーコンピューターのアーキテクチャは複雑ですが、綿密に設計されています。 256 個の GH200 Grace Hopper コンピューティング トレイと、200 レベルの NVLink ファット ツリーを形成する NVLink スイッチ システムで構成されます。各コンピューティング トレイには、GHXNUMX Grace Hopper スーパーチップ、ネットワーク コンポーネント、管理システム/BMC、およびデータ ストレージとオペレーティング システム実行用の SSD が収容されています。

200 個の GraceHopper スーパーチップ シャーシの DGX Gh8 NVLink トポロジ

8 GraceHopper スーパーチップ シャーシの NVLink トポロジ

NVIDIA Grace Hopper コンピューティング トレイの仕様
カテゴリー 詳細
CPU / GPU 1x NVIDIA Grace Hopper スーパーチップ (NVLink-C2C 搭載)
GPU/GPU 18x NVLink 第 XNUMX 世代ポート
ネットワーキング OSFP を備えた 1x NVIDIA ConnectX-7:
> NDR400 InfiniBand コンピューティング ネットワーク
1x デュアル ポート NVIDIA BlueField-3 (2x QSFP112 搭載) または 1x デュアル ポート NVIDIA ConnectX-7 (2x QSFP112 搭載):
> 200 GbE インバンドイーサネットネットワーク
> NDR200 IB ストレージ ネットワーク
帯域外ネットワーク:
> 1 GbE RJ45
Storage データドライブ: 2x 4 TB (U.2 NVMe SSD) SW RAID 0
OS ドライブ: 2x 2 TB (M.2 NVMe SSD) SW RAID 1

このセットアップでは、8 つのコンピューティング トレイが XNUMX つの第 XNUMX レベルの NVLink NVSwitch トレイにリンクされ、単一の XNUMX GPU シャーシを確立します。すべての NVLink スイッチ トレイには XNUMX つの NVSwitch ASIC があり、カスタム ブラインド メイト ケーブル カートリッジを介してコンピューティング トレイに接続し、LinkX ケーブルを介して第 XNUMX レベルの NVLink スイッチに接続します。

結果として得られるシステムは、36 台のシャーシを接続して包括的な NVIDIA DGX GH32 スーパーコンピュータを形成する 200 台の第 2 レベル NVLink スイッチで構成されます。詳細については、Grace Hopper スーパーチップを搭載したコンピューティング トレイの仕様については表 3、NVLink スイッチの仕様については表 XNUMX を参照してください。

DGX GH200 NVLink トポロジ

DGX GH200 NVLink トポロジ

DGX GH200 のネットワーク アーキテクチャ

NVIDIA DGX GH200 システムには 7 つの高度なネットワーク アーキテクチャが組み込まれており、最先端のコンピューティングおよびストレージ ソリューションを提供します。まず、NVIDIA ConnectX-2 および Quantum-400 スイッチで構築された Compute InfiniBand ファブリックは、レールに最​​適化されたフルファット ツリー NDR200 InfiniBand ファブリックを形成し、複数の DGX GHXNUMX ユニット間のシームレスな接続を可能にします。

次に、NVIDIA BlueField-3 データ処理ユニット (DPU) によって駆動されるストレージ ファブリックは、QSFP112 ポートを介して高性能ストレージを提供します。これにより、トラフィックの輻輳を巧みに防ぐ、カスタマイズ可能な専用のストレージ ネットワークが確立されます。

インバンド管理ファブリックは 3 番目のアーキテクチャとして機能し、すべてのシステム管理サービスを接続し、ストレージ プール、Slurm や Kubernetes などのシステム内サービス、NVIDIA GPU クラウドなどの外部サービスへのアクセスを容易にします。

最後に、1GbE で動作するアウトオブバンド管理ファブリックは、ベースボード管理コントローラー (BMC) を通じて、Grace Hopper スーパーチップ、BlueField-3 DPU、および NVLink スイッチの重要なアウトオブバンド管理を監視し、動作を最適化し、障害を防止します。他のサービスと競合します。

AI の力を解き放つ – NVIDIA DGX GH200 ソフトウェア スタック

DGX GH200 には、開発者が望むすべてのパワーが備わっています。それは単なる派手なスーパーコンピューターではありません。その力を利用して AI を前進させることが重要です。間違いなく、DGX GH200 にバンドルされているソフトウェア スタックは、その傑出した機能の XNUMX つです。

この包括的なソリューションは、ハードウェアの機能を最大限に活用するように設計されたいくつかの最適化された SDK、ライブラリ、ツールで構成され、アプリケーションの効率的なスケーリングとパフォーマンスの向上を保証します。ただし、DGX GH200 のソフトウェア スタックの広さと奥深さは、単なる言及以上の価値があります。必ずチェックしてください。 NVIDIA のホワイトペーパー ソフトウェア スタックを詳しく説明するトピックを参照してください。

DGX GH200 のストレージ要件

DGX GH200 システムの機能を最大限に活用するには、バランスの取れた高性能ストレージ システムと組み合わせることが重要です。各 GH200 システムは、NDR25 インターフェイス全体で最大 200 GB/秒の速度でデータを読み書きする能力を備えています。 256 Grace Hopper DGX GH200 構成の場合、NVIDIA は読み取りスループットを最大化するために 450 GB/秒の総ストレージ パフォーマンスを推奨します。

AI プロジェクトとその基盤となる GPU に適切なストレージを提供する必要性は、この夏のトレードショーで最も人気のある話題です。文字通り、私たちがこれまでに参加したすべてのショーでは、基調講演の一部が AI ワークフローとストレージに特化していました。ただし、この講演のどの程度が既存のストレージ製品の再位置付けにすぎず、どの程度が AI ストレージの有意義な機能強化につながるのかはまだわかりません。現時点で判断するには時期尚早ですが、ストレージ ベンダーからは、AI ワークロードに有意義な変化をもたらす可能性があるという噂が数多く聞こえています。

ハードルを 1 つ飛び越えましたが、さらに続きます

DGX GH200 は AI 開発のハードウェア設計面を合理化しますが、生成 AI の分野には他にも大きな課題があることを認識することが重要です。トレーニングデータの生成。

生成 AI モデルの開発には、膨大な量の高品質データが必要です。しかし、データはそのままではすぐに使用できるわけではありません。 AI モデルのトレーニングに適したものにするためには、大規模な収集、クリーニング、ラベル付けの作業が必要です。

データ収集は最初のステップであり、膨大な量の関連情報の入手と蓄積が含まれますが、これには多くの場合、時間と費用がかかります。次にデータ クリーニング プロセスが行われます。このプロセスでは、エラーを特定して修正し、欠落しているエントリを処理し、無関係または冗長なデータを削除するために、細部に細心の注意を払う必要があります。最後に、教師あり学習の重要な段階であるデータのラベル付けのタスクには、AI がデータを理解し、そこから学習できるように各データ ポイントを分類することが含まれます。

トレーニング データの品質は最も重要です。汚い、低品質、または偏ったデータは、AI による不正確な予測や欠陥のある意思決定につながる可能性があります。人間の専門知識が依然として必要であり、トレーニングに使用されるデータが豊富で最高品質であることを保証するには多大な労力が必要です。

これらのプロセスは簡単ではなく、トレーニング データの専門知識を含む人的および資本の両方に多大なリソースを必要とし、ハードウェアを超えた AI 開発の複雑さを浮き彫りにしています。この問題の一部は、次のようなプロジェクトで解決されています。 NeMo ガードレール これは、生成 AI の正確さと安全性を保つように設計されています。

閉じた思考

NVIDIA DGX GH200 は、AI の展望を再定義する完全なソリューションです。比類のないパフォーマンスと高度な機能を備えた、AI の未来を推進する革新的な製品です。可能性の限界を押し広げたいと考えている AI 研究者であっても、AI の力を活用したいと考えている企業であっても、DGX GH200 は目標の達成に役立つツールです。生のコンピューティング能力がさらに普及するにつれて、トレーニング データの生成がどのように対処されるかを観察することは興味深いでしょう。この側面は、ハードウェア リリースに関する議論でしばしば見落とされます。

すべてを考慮すると、DGX GH200 システムのコストが高いことを認識することが重要です。 DGX GH200 は決して安くはなく、そのプレミア価格は、最大手の企業や最も資金豊富な AI 企業 (NVIDIA、連絡してください、私は欲しいのです) の領域内にありますが、余裕のある企業向けです。つまり、DGX GH200 はパラダイムを変える投資であり、AI の開発と応用の最前線を再定義する可能性を秘めています。

より多くの大企業がこのテクノロジーを採用し、高度な AI ソリューションを作成および展開し始めると、AI テクノロジーの広範な民主化につながる可能性があります。イノベーションがより費用対効果の高いソリューションに少しずつ波及し、中小企業が AI をより利用しやすくなることが期待されます。 DGX GH200 のような計算能力へのクラウド ベースのアクセスがより広く利用できるようになり、中小企業でも従量制でその機能を活用できるようになりました。初期費用は高額になるかもしれませんが、DGX GH200 の長期的な影響は業界全体に波及し、あらゆる規模の企業の競争条件を平等にするのに役立つ可能性があります。

GH200 ホワイトペーパー

NVIDIA GH200 プラットフォーム

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード