ホーム Enterprise Western Digital OpenFlex Data24 – GPUDirect パフォーマンス分析

Western Digital OpenFlex Data24 – GPUDirect パフォーマンス分析

by ブライアン・ビーラー

この詳細な記事では、Western Digital OpenFlex™ Data100 の実際の NVIDIA® H24 GPU パフォーマンス分析を紹介します。OpenFlex Data24 は、GPU メモリとストレージ間の直接データ パスを有効にすることで、レイテンシを大幅に削減し、帯域幅を最大化します。

このレポートは Western Digital の後援を受けています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。

最近、AI が話題になっていますが、一部のハイパースケーラーが AI データの問題に対する特注のソリューションを作成している一方で、Western Digital (WD) は、私たち残りの人々に対する答えを持っています。 ウエスタンデジタル OpenFlex™ Data24™ AI やその他の GPU アクセラレーション ワークロードの高スループット要求を満たす、堅牢でスケーラブルなストレージ ソリューションを提供します。OpenFlex Data24 は、GPU メモリとストレージ間の直接データ パスを可能にすることで、レイテンシを大幅に削減します。また、帯域幅を最大化することで、効率的なデータ処理と最適な GPU 使用率を実現し、大規模データセットをより高速かつ効果的に処理します。

NVMe-oF™ を活用することで、Western Digital は複数のサーバー間で分散型高速ストレージを共有し、高速なデータ アクセスと転送を実現できます。高性能 GPU とのシームレスな統合により、OpenFlex Data24 は AI トレーニングと推論に必要な膨大なスループットを実現し、次世代データ センター運用の重要な実現手段として位置付けられます。これらの機能により、OpenFlex Data24 は AI やその他の高度な計算ワークロードの可能性を最大限に活用したいと考えている組織にとって強力なツールとなります。

ウエスタンデジタル OpenFlex Data24 4000

Western DigitalのOpenFlex Data24 4000シリーズNVMe-oFストレージプラットフォームは、共有ストレージ環境に比類のないパフォーマンスをもたらします。この高性能プラットフォームはNVMe™フラッシュの機能を拡張し、イーサネットファブリック上で低遅延の共有を実現します。Data24 4000シリーズは、2000つのWestern Digital RapidFlex™ A100 Fabric Bridgeデバイスを活用し、最大XNUMXのXNUMXGbEポートを使用してシームレスなネットワーク接続を実現します。これらのインターフェイスは、 RoCEv2 および TCP プロトコルをサポートし、データ転送のための多彩なオプションを提供します。

シャーシは 2U フォームファクタで設計されており、最大 24 個のデュアルポート U.2 NVMe SSD を収容できます。PCIe® Gen4 をサポートするこのプラットフォームは、各 SSD のパフォーマンスを最大限に活用し、シャーシ全体で高帯域幅を維持するように設計されています。NVMe SSD には、最大 655 TB の容量で合計 15.36 TB¹ の物理容量を持つ Ultrastar® DC SN368 SSD など、さまざまな容量と耐久性のオプションが用意されています。

プラットフォームの設計により、オーバーサブスクリプションが排除され、NVMe のパフォーマンスを維持するバランスの取れたアクセスが保証されます。Data24 4000 シリーズには、管理を合理化するための RESTful API サポートも組み込まれており、使いやすさと既存の IT インフラストラクチャへの統合が向上します。

高可用性とエンタープライズ クラスの信頼性は、Data24 4000 シリーズの重要な特性です。デュアル I/O モジュールや N+2 ファン冗長性などの機能により、予期しないコンポーネント障害が発生した場合でも継続的な動作が保証され、安心です。SSD を含むプラットフォーム全体に 5 年間の限定保証が付いています。

Western Digital OpenFlex Data24 の主な仕様

OpenFlex Data24 仕様
最大ストレージ容量 368TB
入力電圧 120V~240V
PSU デュアル800W
データ転送速度 12x 100Gbps NVMe-oF
フォームファクター 2U
動作温度 10 ℃〜35 ℃
重量 18.25キロ/ 40.2ポンド
外形寸法(幅×長さ×H) 491.9 mm x 628.65 mm x 85.5 mm / 19.37 インチ x 24.75 インチ x 3.37 インチ
消費電力(最大/標準) 750W / 約550W
PSUの効率 80プラスチタン
ドライブスロット 24
冷却 4 つのシステムファン (N+2 をサポート)
ラックユニット(U) 2U
必要なラックの奥行き 1000 mm(39.4インチ)
必要なラック幅 450mm(17.72インチ)

OpenFlex Data24のテスト

OpenFlex Data24 の性能を最大限に引き出すには、NVIDIA GPUDirect™、NVIDIA IndeX®、そしてなんと 5.9TB の竜巻シミュレーション データという、いくつかの重要な要素を組み合わせる必要がありました。NVIDIA GPUDirect を活用することで、GPU メモリと OpenFlex Data24 間の直接通信が可能になり、レイテンシが大幅に削減され、データ スループットが最大化されました。NVIDIA の IndeX を利用することで、大規模な竜巻データセットをより効率的に視覚化して操作できるようになり、システムのリアルタイム処理能力を実証できました。このセットアップは、集中的な AI ワークロードと大規模なデータ処理を驚異的な速度と効率で処理する OpenFlex Data24 の能力を実証するための完璧なテストベッドとなりました。

NVIDIA GPUDirect

NVIDIA GPUDirect このテクノロジは、高性能 GPU コンピューティング環境内でのデータ転送効率を大幅に向上させます。このテクノロジ スイートは、GPU と他のシステム コンポーネント間のデータ移動を最適化します。レイテンシとオーバーヘッドを削減することで、GPUDirect は、ネットワーク アダプタ、ストレージ デバイス、その他の GPU などの周辺機器と GPU 間のより直接的な通信を可能にします。従来のデータ転送プロセスでは、CPU とシステム メモリを介してデータをルーティングするため、パフォーマンスを妨げるボトルネックが生じます。GPUDirect は、CPU とシステム メモリをバイパスして GPU のメモリへの直接メモリ アクセス (DMA) を許可することでこれらのボトルネックを軽減し、全体的なスループットを向上させます。

NVIDIA のシニア テクニカル マーケティング マネージャーである Harry Petty 氏は次のように述べています。

「NVIDIA のテクノロジは、低レイテンシとストレージからの高速データ転送を実現し、GPU のアイドル時間を削減することで AI ワークロードのパフォーマンスを最適化します。これにより、モデルのトレーニング時間が短縮され、結果の精度が向上し、より迅速な発見とより効率的なワークフローが可能になります。」

GPUDirect は、GPU と RDMA 対応ネットワーク アダプター間の直接データ転送を可能にする GPUDirect RDMA など、いくつかの重要な機能で構成されています。この直接通信は、科学シミュレーションや大規模データ分析など、迅速なデータ交換を必要とするアプリケーションにとって重要です。GPUDirect RDMA は、より高速なデータ転送を可能にすることで、レイテンシを削減し、GPU クラスターの効率を高めます。さらに、GPUDirect Storage は、GPU を高速ストレージ システムとより緊密に統合し、データ集約型アプリケーションが最新の NVMe ストレージの最大帯域幅を活用できるようにします。この統合により、データ アクセスが高速化され、データが GPU メモリにロードされるのを待つ時間が短縮されます。これは、リアルタイム分析や大規模な機械学習ワークロードにとって重要です。

GPUDirect の機能は、ディープラーニング トレーニング クラスターなど、複数の GPU が連携して動作する環境で特に効果を発揮します。GPUDirect は、GPU 間の直接通信を容易にすることで並列処理を最適化し、GPU 間のデータ転送に関連するオーバーヘッドを大幅に削減します。この機能強化は、大量のデータを複数の GPU 間で迅速に交換する必要がある複雑なニューラル ネットワークのトレーニングに特に役立ちます。GPUDirect による効率性の向上は、分子動力学シミュレーションや流体力学などのアプリケーションでも明らかです。これらのアプリケーションでは、計算ワークロードが多数の GPU に分散され、より高速な結果が得られます。

NVIDIA インデックス

NVIDIA インデックス は、膨大なデータセットを高い忠実度で処理できるように設計された高度なボリューム ビジュアライゼーション ツールです。IndeX は GPU アクセラレーションを活用して 3D ボリューム データのリアルタイムのインタラクティブなビジュアライゼーションを提供するため、石油やガスの探査、医療用画像処理、科学研究などの業界では欠かせないものとなっています。従来のビジュアライゼーション ツールでは、最新のデータセットの膨大なサイズと複雑さに対処できず、レンダリング時間が長くなり、ユーザー エクスペリエンスがインタラクティブでなくなることがよくあります。IndeX は、NVIDIA の GPU テクノロジを活用してこれらの制限を克服し、高性能なレンダリングとデータ処理を実現して、ユーザーがリアルタイムでデータを操作できるようにします。

IndeX の機能は、GPU の並列処理能力を活用することで実現され、大規模なボリューム データを効率的に管理およびレンダリングできます。この機能は、石油およびガス部門の地震解析や貯留層シミュレーションなど、高解像度の視覚化を必要とするアプリケーションで役立ちます。IndeX は、地下構造の詳細かつ正確な視覚表現を提供することで、地質学者が情報に基づいた意思決定を行うのに役立ちます。医療分野では、IndeX は MRI や CT スキャンなどの画像診断法から複雑な解剖学的構造を視覚化して、診断や治療計画に役立ちます。

IndeX のリアルタイム レンダリング機能は、シミュレーションや実験からの大規模なデータセットを迅速に視覚化して分析する必要がある科学研究にとっても重要です。研究者はデータをインタラクティブに操作および探索できるため、仮説のテストと発見を迅速に行うことができます。IndeX のスケーラビリティにより、高度な科学機器やシミュレーションによって生成されるデータ量の増加に対応でき、研究者はデータを効果的に視覚化して解釈するためのツールを利用できます。既存のワークフローとシームレスに統合し、さまざまなデータ形式をサポートすることで、IndeX は生産性を高め、複数の分野にわたる発見のペースを加速します。

すべてを結びつける

Data24 4000 シリーズを NVIDIA GPUDirect テクノロジと統合すると、GPU とストレージ間のデータ転送が効率化され、GPU を多用するアプリケーションのパフォーマンスが大幅に向上します。GPUDirect は直接メモリ アクセスを容易にし、CPU とシステム メモリをバイパスしてデータを移動できるため、レイテンシが短縮され、スループットが向上します。Data24 4000 シリーズの高性能 NVMe-oF 機能と組み合わせると、GPUDirect により、GPU は NVMe SSD に保存されている大規模なデータセットに迅速にアクセスできるようになります。

この統合は、ディープラーニングや科学シミュレーションなど、GPU とストレージ間の高速データ交換が重要な環境で特に有益です。Data24 4000 シリーズの低レイテンシと高帯域幅は、GPUDirect によって実現される直接データ パスと相まって、データ転送時間を最小限に抑え、より効率的な GPU 利用を可能にします。この相乗効果により、複数の GPU が共有データに高速かつ頻繁にアクセスする必要がある並列処理タスクのパフォーマンスが最適化されます。

このテストでは、OpenFlex Data24 4000 と GPU サーバーは、MTU が 200 に一致する NVMe-oF RoCEv2 プロトコルを使用して 5000GbE スイッチ経由で接続されています。GPU サーバーは、RNIC ごとに 3x 7 GbE を備えた 2 つの Mellanox® CX200 RNIC を使用します。OpenFlex Data24 4000 は、12x 100GbE ポートで利用できます。各 CX7 ポートには 2 つの IP アドレスがあり、7 つの CX24 を Data4 の 6 つのポートにマップできます。これにより、各デュアル ポート ドライブの 200 つの PCIe レーンすべてに接続できます。12x 100 GbE リンクは、ノンブロッキング ネットワーク アーキテクチャの XNUMXx XNUMXGbE リンクの帯域幅の潜在能力に相当します。

各 NVIDIA H100 は PCIe Gen5 x16 スロットを介して接続され、理論上は双方向で 64GB/秒の帯域幅を実現できます。200GbE および 100GbE RNIC ポートはそれぞれ理論上 25 GB/秒および 12.5 GB/秒に到達できます。設計上の重要な考慮事項は、ノンブロッキング アーキテクチャを確保することです。これには、GPU、RNIC、および NVMe-oF ドライブがすべて同じ CPU、NUMA、および PLX スイッチに物理的にマッピングされている必要があります。これにより、構成で GPUDirect を最大限に活用できます。この実装でわかるように、XNUMX 番目の CPU、NUMA、および PLX スイッチのミラーリング構成により、予測可能なコンピューティング スケールと理論上の XNUMX 倍のパフォーマンスが可能になります。

AI トレーニング クラスターでは、Data24 4000 と GPUDirect を組み合わせることで、データ読み込みに関連するボトルネックを減らし、トレーニング時間を短縮できます。効率的なデータ パスにより、GPU は中断することなく継続的にデータを受信できるため、高い処理速度が維持され、システム全体の効率が向上します。この設定は、リアルタイム分析や、迅速なデータ アクセスと処理を必要とするその他のアプリケーションにも有利で、さまざまな計算ワークロードのパフォーマンスを大幅に向上させます。

NVIDIA IndeX サーバーの構成

NVIDIA IndeX テストでは、スイッチ PCIe バックプレーン、NVIDIA H521 のペア、および NVIDIA ConnectX-100 ネットワーク カード 7 枚を搭載した Supermicro XNUMXGE-TNRT を使用しました。

Supermicro® 521GE-TNRT の主な仕様
モデル スーパーマイクロ 521GE-TNRT
プロセッサ インテル® Xeon® Platinum 2Y+ 8462 基
メモリ 1TB DDR5
GPU 2x NVIDIA H100 PCIe
ネットワーク·インタフェース 3x NVIDIA ConnectX-7 NIC

GDSIO 合成テスト

この目的で使用されるベンチマーク ツールは GDSIO です。これは、GPU ダイレクト ストレージ (GDS) 環境でのストレージ パフォーマンスを測定するために設計された、専用の NVIDIA ユーティリティです。このテストでは、12 個のドライブと 24 個のドライブを備えた 24 つの GPU、および XNUMX 個のドライブを備えた XNUMX つの GPU など、いくつかの構成を検討しました。

GDSIO パフォーマンス テストにおける Western Digital OpenFlex Data24 のパフォーマンスは、NVIDIA H100 GPU と組み合わせることで、ドライブの本来のパワーを明らかにします。12 台のドライブと 44.14 台の GPU で構成した場合、システムは 24 GB/秒の書き込み帯域幅を達成しました。54.15 台の GPU を使用しながらドライブ数を 24 台に増やすと、書き込みパフォーマンスが 87.91 GB/秒に達し、若干の改善が見られました。XNUMX 台のドライブ構成に XNUMX 台目の GPU を導入すると、書き込み帯域幅が大幅に向上し、XNUMX GB/秒にまで上昇しました。

読み取りパフォーマンスも同様の傾向を示しています。12 ドライブ、53.47 GPU 構成では、読み取り帯域幅は 24 GB/秒でした。54.75 GPU で 101.14 ドライブに拡張すると、わずかに増加して 24 GB/秒になります。ただし、最も劇的な改善はデュアル GPU セットアップで、システムは XNUMX GB/秒という驚異的な読み取り帯域幅を達成しました。これらの結果は、OpenFlex DataXNUMX がドライブ数の増加に応じて予測どおりに拡張できることを強調しています。

GPU の追加は、パフォーマンスを最大化する上で重要な役割を果たします。24 台のドライブと 24 つの GPU の構成が最適なセットアップとなり、読み取りおよび書き込み操作に最高の帯域幅を提供します。このテストは、GDSIO フレームワークの潜在能力を最大限に活用する上で GPU アクセラレーションの重要性を強調しています。OpenFlex Data100 は、NVIDIA HXNUMX GPU と組み合わせると、並外れたパフォーマンスを発揮し、要求の厳しいストレージ環境向けの堅牢なソリューションとなります。

迅速なデータ取り込みと処理が最も重要である AI ワークロードの場合、OpenFlex Data24 で確認されたパフォーマンスは、トレーニング時間の大幅な短縮と、大規模なデータセットのより効率的な処理につながります。データをストレージから GPU メモリに迅速に移動できるため、強力な GPU の計算リソースが最大限に活用され、より高速で効率的なモデル トレーニングと推論が可能になります。

OpenFlex Data24 を使用して H100 の竜巻をフィードする

気候研究者は長年にわたり、世界で最も激しく危険な竜巻の原因となる大気現象であるスーパーセル雷雨を研究してきました。これらの嵐は動的かつ複雑であるため、正確なシミュレーションには時間がかかり、大量のデータが必要です。このようなデータの調査は時間がかかり、面倒なプロセスであり、新しい視覚化をレンダリングするのに何時間もかかることがよくあります。

NVIDIA GPU と NVIDIA IndeX の使用により、この分野は革命的に変化しました。科学者は、リアルタイムでボリューム ビジュアライゼーションを実行できるようになりました。Supermicro システムで H100 を使って実行したシミュレーション (OpenFlex Data24 からデータを入力) は、Leigh Orf 教授がシミュレートした 2011 年のオクラホマ州の嵐を再現したものです。竜巻が発生する直前の初期条件から数学的に導き出されたこのシミュレーションには、雨、雹、気圧、風速など 250 を超える属性を持つ 6000 億のグリッド ポイントが含まれています。XNUMX のシミュレーション ステップを示すこの詳細なビジュアライゼーションは、竜巻のダイナミクスに関する前例のない洞察を提供します。

このシミュレーションの鍵となるのは NanoVDB です。これは、データを GPU のメモリに直接マッピングすることでデータセットのサイズとメモリ フットプリントを削減する、コンパクトなスパース ボリューム データ構造です。GPUDirect ストレージ テクノロジーと OpenFlex Data24 を組み合わせることで、最大 89 GB/秒を実現し、13 秒あたり 5.9 フレーム以上で結果を表示できます。これは、66 秒ごとに約 XNUMX TB のデータセットが取り込まれることを意味します。この組み合わせにより、インタラクティブなナビゲーション、オンザフライのパラメータ調整、シミュレーションのスクラブが簡単に行えます。


GPUDirect が無効になっている場合 (つまり、データが CPU 複合体を通過する場合)、帯域幅は約 15 GB/秒に減少し、フレーム レートは 4 フレーム/秒に大幅に低下します。

スピードは重要ですが、シミュレーションの精度を検証するには、フォトリアリスティックな品質も不可欠です。シミュレーションと現実が一致しない場合は、モデルを修正する必要があります。この視覚化を実現するには、物理​​的に正確な光輸送をレンダリングする GPU ベースのパス トレーサーである NVIDIA Iray を NVIDIA IndeX ボリューム データとともに使用します。竜巻の漏斗、地面との接触、および青灰色の孔で表された雲水比や雨などの詳細な要素がはっきりと見えます。

まとめ

適切に構成されたノンブロッキング アーキテクチャが GPU アクセラレーション ワークロードにもたらすパフォーマンス、時間、コストのメリットは、このプロジェクトで十分に実証されています。簡単に言えば、GPU を最大スループットまたは処理能力まで駆動すると、より効率的な結果と投資収益率が得られます。

Western Digital のアーキテクチャは Open Composable Infrastructure (OCI) をサポートしており、OpenFlex Data24 4000 プラットフォームは、NVMe-over-Fabrics (NVMe-oF) を使用してデータ ストレージを分離することで、この OCI アプローチを活用しています。ストレージ リソースを GPU サーバーから分離すると、サーバーのリソースが解放されるだけでなく (従来のロックステップ アップグレードから解放されます)、NVMe ドライブの GPU へのマッピングを微調整することもできます。ドライブを GPU 要件に正確に一致させることで、GPU の機能、パフォーマンス、データ容量のニーズに厳密に対処できるようになり、その結果、それらのリソースに必要な予測可能なスケールと柔軟性が実現します。

データがサイロ化されなくなるため、アクセス可能なネットワーク ストレージ リソースとなり、必要に応じて複数の GPU サーバー間で共有できるようになり、柔軟性がさらに向上します。

Western Digital OpenFlex Data24 は、NVIDIA GPUDirect テクノロジーと組み合わせることで、AI やその他の GPU アクセラレーション ワークロードの処理において優れた能力を発揮します。GPU メモリと NVMe ストレージ間の直接データ パスを可能にすることで、Data24 はレイテンシを大幅に削減し、帯域幅を最大化して、効率的なデータ処理と最適な GPU 使用率を保証します。この統合により、大規模なデータセットをより高速かつ効果的に処理できるため、Data24 は現代のデータ集約型環境において貴重な資産となります。

大規模な竜巻シミュレーション データセットを使用した実際のテストでは、このセットアップによって達成される驚異的なパフォーマンスの向上が実証されました。OpenFlex Data24 の高スループットと低遅延のデータ転送能力と、NVIDIA IndeX のリアルタイム視覚化機能を組み合わせることで、AI トレーニング、科学的シミュレーション、リアルタイム分析などの要求の厳しいアプリケーションにおけるその可能性が強調されます。

AI トレーニング クラスターに Data24 シリーズと GPUDirect テクノロジーを活用すると、ストレージから GPU へのシームレスなデータ フローが確保され、トレーニング時間を大幅に短縮できます。この設定によりボトルネックが最小限に抑えられ、システム全体の効率が向上するため、より高速で正確な AI モデルを追求する上で重要な要素となります。

OpenFlex Data24 の利点は、AI 以外にも、高性能コンピューティングやリアルタイム データ分析など、他の GPU アクセラレーション ワークロードにも及びます。このプラットフォームによってレイテンシが短縮され、スループットが向上するため、迅速なデータ アクセスと処理を必要とするアプリケーションが最高のパフォーマンスで動作し、タイムリーで正確な結果が得られます。

このデモは、6 年 8 月 2024 日から 2024 日まで、FMS 607 ブース #XNUMX でご覧いただけます。

ウエスタンデジタル OpenFlex プラットフォーム

[1] XNUMXテラバイト(TB)はXNUMX兆バイトに相当します。実際のユーザー容量は動作環境により少なくなる場合があります。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード