Home Enterprise NVIDIA HGX A100 システムを発売

NVIDIA HGX A100 システムを発売

by アダムアームストロング

本日、NVIDIA は、一部のグローバル パートナーの協力を得て、新しい NVIDIA HGX A100 システムを発売すると発表しました。新しいシステムは、NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand ネットワーキング、NVIDIA Magnum IO GPUDirect Storage ソフトウェアなどの NVIDIA 要素を追加することで、AI と HPC を高速化することを目指しています。これらの新しい HGX システムは、Atos、Dell Technologies、Hewlett Packard Enterprise (HPE)、Lenovo、Microsoft Azure、NetApp などのパートナーによって市場に投入されます。

本日、NVIDIA は、一部のグローバル パートナーの協力を得て、新しい NVIDIA HGX A100 システムを発売すると発表しました。新しいシステムは、NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand ネットワーキング、NVIDIA Magnum IO GPUDirect Storage ソフトウェアなどの NVIDIA 要素を追加することで、AI と HPC を高速化することを目指しています。これらの新しい HGX システムは、Atos、Dell Technologies、Hewlett Packard Enterprise (HPE)、Lenovo、Microsoft Azure、NetApp などのパートナーによって市場に投入されます。

Nvidia HGX A100

NVIDIA は長年にわたって高性能 GPU を製造してきました。特に HPC における新興 AI 市場により、同社のテクノロジーを活用するスーパーコンピューターがますます増えています。 NVIDIA 自体は、ここ数年、DGX および HGX モデルを使用した HPC サーバーとワークステーションを製造してきました。後者は、パフォーマンスを向上させるために複数の NVIDIA IP を 1 つ屋根の下にまとめました。新しいシステムは、NVIDIA が提供する最新かつ最高の機能を使用してこれをもう一度実行します。

NVIDIA A100 80GB PCIe GPU

Nvidia HGX A100 GPU

NVIDIA A100 は昨年の GTC で発表されました。この新しい 7nm GPU は、同社の Ampere アーキテクチャを活用しており、54 万個のトランジスタを搭載しています。 NVIDIA は、メモリを 100 倍にする NVIDIA A80 100GB PCIe GPU の導入により製品を迅速に改良しました。 A80 100GB PCIe GPU は、新しい HGX AXNUMX システムの最初の部分です。その大容量メモリと高帯域幅により、より多くのデータとより大規模なニューラル ネットワークをメモリに保持できます。これは、ノード間通信が減少し、エネルギー消費も減少することを意味します。また、メモリが多いとスループットも向上し、結果がより速く得られます。

前述したように、NVIDIA A100 80GB PCIe GPU は、同社の Ampere アーキテクチャを搭載しています。このアーキテクチャは、MIG とも呼ばれるマルチインスタンス GPU を特徴としています。 MIG は、AI 推論などの小規模なワークロードの高速化を実現できます。この機能により、ユーザーは保証された QoS でコンピューティングとメモリの両方をスケールダウンできます。

NVIDIA A100 80GB PCIe GPU を取り巻くパートナーには、Atos、Cisco、Dell Technologies、富士通、H3C、HPE、Inspur、Lenovo、Penguin Computing、QCT、Supermicro が含まれます。 AWS、Azure、Oracle など、このテクノロジーを提供するクラウド サービスもいくつかあります。

NVIDIA NDR 400G InfiniBand ネットワーキング

NVIDIA HGX A100 システム パズルの 400 番目のピースは、新しい NVIDIA NDR XNUMXG InfiniBand スイッチ システムです。これは少し明白に聞こえるかもしれませんが、HPC システムは非常に高いデータ スループットを必要とします。 NVIDIA は数年前に Mellanox を 7 億ドル近くで買収しました。それ以来、NVIDIA のみとして Mellanox の名前を段階的に廃止しながら、着実に新製品をリリースしてきました。昨年、400 倍のポート密度と 3 倍の AI アクセラレーションを備えた NVIDIA NDR 32G InfiniBand がリリースされました。これは、NVIDIA Quantum-2 固定構成スイッチ システムを通じて新しい HGX システムに統合されています。このシステムは、ポートあたり 64 ポートの NDR 400Gb/s InfiniBand、または 128 ポートの NDR200 を提供すると言われています。

同社によれば、新しい NVIDIA Quantum-2 モジュラー スイッチは、NDR 2,048Gb/s InfiniBand の最大 400 ポート (または NDR4,096 の 200 ポート) までのスケーラブルなポート構成を提供し、総双方向スループットは 1.64 ペタビット/秒です。これは、前世代と比較して 5 倍以上の改善と 6.5 倍の拡張性を示しています。 DragonFly+ ネットワーク トポロジを使用すると、ユーザーは 3 万を超えるノードに接続できます。最後に、同社は第 32 世代 NVIDIA SHARP インネットワーク コンピューティング データ削減テクノロジを追加しました。これにより、前世代と比較して XNUMX 倍の AI 高速化が実現できると主張しています。

NVIDIA Quantum-2 スイッチには、下位互換性と上位互換性があります。製造パートナーには、Atos、DDN、Dell Technologies、Excelero、GIGABYTE、HPE、Lenovo、Penguin、QCT、Supermicro、VAST、WekaIO が含まれます。

Magnum IO GPUDirect ストレージ

Nvidia HGX A100 アーチ

新しい NVIDIA HDX A100 パズルの最後のピースは、新しい Magnum IO GPUDirect Storage です。これにより、GPU メモリとストレージ間の直接メモリ アクセスが可能になります。これには、I/O 遅延の短縮、ネットワーク アダプターの帯域幅の積極的な使用、CPU への影響の軽減など、いくつかの利点があります。現在、DDN、Dell Technologies、Excelero、HPE、IBM Storage、Micron、NetApp、Pavilion、ScaleFlux、VAST、WekaIO など、いくつかのパートナーが Magnum IO GPUDirect Storage を利用できます。

NVIDIA HGX

StorageReview と連携する

ニュースレター | YouTube | LinkedIn | Instagram | Twitter | Facebook | TikTokRSSフィード