NVIDIA は、NVIDIA BlueField-2 のリリースにより、データ処理ユニット (DPU) の進化を続けています。 NVIDIA BlueField-2 DPU は、データセンター オンチップのインフラストラクチャとして宣伝されており、エンタープライズ クラウドおよび HPC ワークロード向けに最適化されています。 BlueField-2 は、NVIDIA ConnectX-6 Dx ネットワーク アダプターを一連の Arm コアおよびインフラストラクチャ固有のオフロードと組み合わせ、完全なソフトウェア プログラマビリティを備えた専用のハードウェア アクセラレーション エンジンを提供します。ブライアンは今年初め、定期的なポッドキャストの XNUMX つで NVIDIA と話し合いました。いくつか入手できます NVIDIA DPU の詳細はこちら。
NVIDIA は、NVIDIA BlueField-2 のリリースにより、データ処理ユニット (DPU) の進化を続けています。 NVIDIA BlueField-2 DPU は、データセンター オンチップのインフラストラクチャとして宣伝されており、エンタープライズ クラウドおよび HPC ワークロード向けに最適化されています。 BlueField-2 は、NVIDIA ConnectX-6 Dx ネットワーク アダプターを一連の Arm コアおよびインフラストラクチャ固有のオフロードと組み合わせ、完全なソフトウェア プログラマビリティを備えた専用のハードウェア アクセラレーション エンジンを提供します。ブライアンは今年初め、定期的なポッドキャストの XNUMX つで NVIDIA と話し合いました。いくつか入手できます NVIDIA DPU の詳細はこちら。
機能は印象的ですが、まず DPU の進化を見てみましょう。歴史に詳しくない場合は、NVIDIA BlueField-2 の詳細までスキップしてください。それは、Intel x90 プロセッサが OS と組み合わせて比類のないパワーを企業に提供した 86 年代に始まりました。次にクライアント/サーバーが登場し、分散処理が登場しました。ソフトウェア開発とデータベースの増大が急速に加速し、データセンターへのハードウェア導入が爆発的に増加しました。
2000 年代初頭に、VMware は ESX ハイパーバイザーを導入し、x86 CPU を仮想化し、複数のオペレーティング システム インスタンスを単一のサーバー上で実行できるようにしました。 VM は必ずしも新しいものではありませんでした。 IBM は、ESX ハイパーバイザーを作成する前に、長年にわたってメインフレーム上で仮想マシンを実行していました。ただし、この発展により、データセンターのインフラストラクチャの集合体が増加しました。
開発者が手動介入なしで仮想マシンを定義およびプロビジョニングするコードを作成することで、ハードウェアをプログラムできるようになりました。これにより、最終的にはクラウド コンピューティングへの移行が推進されました。
VMware は ESX プラットフォームの成功を認識し、ストレージとネットワークの仮想化に迅速に移行しました。 EMC も負けじと Cisco と提携して、独自の仮想化ネットワークおよびストレージ ソリューションを構築しました。相次ぐ買収が起こった。 VMware は、vSphere プラットフォームに統合された vSANS を開発しました。
この統合インフラストラクチャの開発は、Software-Defined Data Center (SDDC) と呼ばれます。 Microsoft、VMware、Cisco、EMC といった大手企業は、SDDC 市場を獲得しようと競い合いました。 I/O、セキュリティ、OS、アプリケーションなど、すべてがプログラム可能になりました。SDDC は単なる CPU コンポーネントであり、他のサービスに使用される利用可能なリソースに負担をかけていました。
このすべての収束とプログラム可能性が人工知能 (AI) 開発につながり、グラフィックを多用するアプリケーションの処理要件に対処するために GPU が開発されました。これは、CPU から一部の操作をオフロードするハードウェアの開発につながります。通常 CPU に負荷がかかるネットワーク機能がオフロードされたため、NVIDIA はこの新たな機会に飛びつき、Mellanox を買収してスマート ネットワーク アダプターを開発しました。
GPU がよりスマートになり、スマート NIC は、SDDC 全体の集合体からネットワークとグラフィックス処理を取り除く上で極めて重要になりました。最終的に、DPU の開発は、CPU からオフロードされたインテリジェンスの結果です。
新しい NVIDIA BlueField-2 DPU は、マルチコア CPU、高性能ネットワーク インターフェイス、プログラマブル アクセラレーション エンジンを組み合わせたシステム オン チップを作成しました。
NVIDIA BlueField-2 DPU – ザ・ミート
CPU v GPU v DPU: DPU の違いは何ですか?
DPU は、3 つの主要な要素を組み合わせた新しいクラスのプログラマブル プロセッサです。 DPU は、以下を組み合わせたシステム オン チップ (SoC) です。
- 業界標準の高性能、ソフトウェアでプログラム可能なマルチコア CPU。通常は広く使用されている Arm アーキテクチャに基づいており、他の SoC コンポーネントと緊密に結合されています。
- ライン レート、つまりネットワークの残りの部分の速度でデータを解析、処理し、GPU や CPU に効率的に転送できる高性能ネットワーク インターフェイス。
- AI、機械学習、セキュリティ、通信、ストレージなどのアプリケーションのパフォーマンスをオフロードして向上させる、柔軟でプログラム可能なアクセラレーション エンジンの豊富なセット。
NVIDIA® BlueField®-2 DPU は、最新のクラウドと HPC 向けに最適化された初のデータセンター オンチップのインフラストラクチャです。データセンター インフラストラクチャのオフロード、高速化、分離機能を備えた、高速化されたソフトウェア デファインド ネットワーキング、ストレージ、セキュリティ、管理サービスの広範なセットを提供します。 200 Gb/s イーサネットまたは InfiniBand 接続を備えた BlueField-2 DPU は、コントロール プレーンとデータ プレーンの両方のネットワーク パスを高速化し、データ侵害やサイバー攻撃を防ぐ「ゼロトラスト」セキュリティを備えています。
NVIDIA ConnectX®-6 Dx は、ネットワーク アダプターを Arm® コアのアレイおよびインフラストラクチャ固有のオフロードと組み合わせ、完全なソフトウェア プログラマビリティを備えた専用のハードウェア アクセラレーション エンジンを提供します。すべてのサーバーのエッジに位置する BlueField-2 は、機敏で安全な高性能のクラウドおよび人工知能 (AI) ワークロードを強化し、データセンターの効率を向上させながら TCO を削減します。
NVIDIA DOCA™ ソフトウェア フレームワークを使用すると、開発者は BlueField-2 DPU 用のアプリケーションとサービスを迅速に作成できます。 NVIDIA DOCA は DPU ハードウェア アクセラレータを活用し、データセンターのパフォーマンス、効率、セキュリティを向上させます。
NVIDIA BlueField-2 DPU の機能
ネットワークおよびホストインターフェイス |
Storage |
ネットワークインターフェイス | BlueField SNAP – NVMe™ および VirtIO-blk |
イーサネット – 10/25/50/100Gb/s のデュアル ポート、または 200Gb/s のシングル ポート | NVMe-oF™ アクセラレーション |
InfiniBand – EDR / HDR100 のデュアル ポート、または HDR のシングル ポート | 圧縮および減圧の加速 |
PCIExpressインターフェイス | データのハッシュ化と重複排除 |
8 または 16 レーンの PCIe Gen 4.0 | 直接接続ストレージ用の M.2 / U.2 コネクタ |
8 つのダウンストリーム ポートを備えた PCIe スイッチ分岐 | ネットワーキング |
ARM/DDR サブシステム | RoCE、ゼロタッチ RoCE |
アームコア | ステートレス オフロード: |
最大 8 つの Armv8 A72 コア (64 ビット) パイプライン | TCP/UDP/IP |
1コアあたり2MBのL2キャッシュ | LSO/LRO/チェックサム/RSS/TSS/HDS |
複数のエビクションポリシーを備えた 6MB L3 キャッシュ | VLAN の挿入/除去 |
DDR4 DIMM のサポート | SR-IOV |
シングル DDR4 DRAM コントローラー | VirtIOネット |
8GB / 16GB / 32GB のオンボード DDR4 | ポートごとの多機能 |
ECCエラー保護のサポート | VMware NetQueue のサポート |
ハードウェアアクセラレーション | 仮想化階層 |
セキュリティ | 1K の入力および出力 QoS レベル |
ハードウェアの信頼のルートによるセキュアブート | ブートオプション |
安全なファームウェアアップデート | セキュアブート(RSA認証) |
ケルベロス準拠 | イーサネット経由のリモート ブート |
正規表現 (RegEx) の高速化 | iSCSI 経由のリモート ブート |
IPsec/TLS データインモーション暗号化 | PXE と UEFI |
AES-GCM 128/256 ビットキー | マネジメント |
AES-XTS 256/512 ビット保存データ暗号化 | 1GbE アウトオブバンド管理ポート |
SHA 256ビットハードウェアアクセラレーション | NC-SI、SMBus 上の MCTP、および PCIe 上の MCTP |
ハードウェア公開鍵アクセラレータ | 監視および制御用 PLDM DSP0248 |
RSA、ディフィー・ヘルマン、DSA、ECC、 | ファームウェア更新用 PLDM DSP026 |
EC-DSA、EC-DH | デバイスの制御と構成のための I2C インターフェース |
真の乱数ジェネレーター(TRNG) | フラッシュへのSPIインターフェース |
eMMC メモリ コントローラー | |
UART | |
USB |
ストレージ、ネットワーク、機械学習用の DPU
新しい BlueField-2 が高速ストレージ テクノロジーにどのように取り組んでいるかを見てみましょう。 BlueField は、NVMe over Fabric (NVMe-oF)、オールフラッシュ アレイ (AFA)、JBOF 用ストレージ コントローラー、サーバー キャッシング (memcached)、分散型ラック ストレージ、スケールアウト ダイレクトなどのストレージ プラットフォーム向けの完全なソリューションを提供します。付属のストレージ。この DPU の賢い機能により、柔軟な選択が可能になります。
NVIDIA は、 ブルーフィールド-2はこちら。テスト環境はブログに記載しております。
完全なストレージ ソリューション
BlueField-2 は、NVMe-oF、Ceph、Lustre、iSCSI/TCP オフロード、フラッシュ変換レイヤー、データ圧縮/解凍、重複排除を使用したオールフラッシュ アレイなどのストレージ アプリケーションに Arm コアの処理能力を利用します。
高性能ストレージ アレイでは、BlueField-2 がシステムのメイン CPU として機能し、ストレージ コントローラーのタスクとトラフィック終端を処理します。コプロセッサとして構成することもでき、特定のストレージ タスクをホストからオフロードしたり、ストレージ メディアの一部をホストから分離したり、BlueField Arm コアを使用してソフトウェア デファインド ストレージ ロジックの抽象化を可能にしたりできます。
NVMe over Fabric 機能
NVMe-oF の高度な機能を利用する BlueField RDMA ベースのテクノロジーは、最小限の CPU オーバーヘッドでローカル ストレージと同等のリモート ストレージ アクセス パフォーマンスを実現し、効率的な分散ストレージとハイパーコンバージド ソリューションを可能にします。
ストレージ アクセラレーション
BlueField 組み込み PCIe スイッチを使用すると、お客様はスタンドアロン ストレージ アプライアンスを構築し、単一の BlueField を 外部スイッチなしで複数のストレージデバイスを使用できます。
署名の引き継ぎ
BlueField 組み込みネットワーク コントローラーによりハードウェアが可能になります T10 データ整合性フィールド/保護情報(T10-DIF/PI)のチェックにより、ソフトウェアのオーバーヘッドが削減され、アプリケーションへのデータ配信が高速化されます。署名のハンドオーバーは、上りパケットと下りパケットのアダプターによって処理され、イニシエータ マシンとターゲット マシンのソフトウェアの負荷が軽減されます。
ネットワーキングとセキュリティのための BlueField
新しい Bluefield-2 は、smartNIC の形式でも、スタンドアロン ネットワーク プラットフォームとしても、ネットワーク アプリケーションの効率的な展開を提供します。 高度なオフロードと Arm コンピューティングを組み合わせて使用する BlueField はネットワークとセキュリティ プロトコルを終了します 列をなして。
ブルーフィールドスマートNIC
ネットワーク アダプターとして、完全または部分的に柔軟に対応できます。 データ プレーンとコントロール プレーンを実装し、コンピューティング リソースをより効率的に使用できるようにします。アダプターのプログラム可能性により、新しいデータとコントロール プレーンの機能を統合する機能が提供されます。
BlueField のセキュリティ機能
セキュリティに関して言えば、 対称および非対称の暗号化オフロードの統合 暗号化操作は、セキュリティ アプリケーションの実装に最適な選択肢となります。セキュリティはデータセンターの DNA に組み込まれています インフラストラクチャ、脅威への露出を軽減し、リスクを最小限に抑え、 潜在的な脅威をリアルタイムで予防、検出、対応します。
痛みのない仮想化
NVIDIA の PCIe SR-IOV テクノロジー、データセンター管理者 コスト、電力、電力を削減しながら、サーバーの使用率が向上するという利点があります。 ケーブルの複雑さにより、より多くの仮想マシンとより多くのテナントが可能になります 同じハードウェア上で。これにより、TCO の問題が確実に解決されます。
オーバーレイネットワーク
データセンター事業者はネットワーク オーバーレイ テクノロジー (VXLAN、 NVGRE、GENEVE) を使用して、スケーラビリティの障壁を克服します。提供することで カプセル化/カプセル化解除を行う高度なオフロード エンジン オーバーレイ プロトコル ヘッダーを使用すると、この DPU により従来のオフロードが可能になります。 トンネル化されたプロトコルで動作し、NAT ルーティングの負荷も軽減します。 機能を提供します。
機械学習環境用の BlueField
もちろん、NVIDIA は、機械学習アプライアンス向けの費用対効果の高い統合ソリューションを提供するこの新しい DPU で AI/ML 市場に取り組みました。 PCIe Gen 3.0/4.0 インターフェースを介して複数の GPU を接続できます。 BlueField-2 は、RDMA および GPUDirect® RDMA テクノロジーを使用して、リアルタイム分析とデータ洞察のための効率的なデータ配信を提供します。
RDMA アクセラレーション
ネットワーク コントローラー データ パス ハードウェアは RDMA および RoCE テクノロジーを利用し、ほぼゼロの CPU サイクルで低レイテンシーと高スループットを実現します。
マルチ GPU プラットフォーム用の BlueField
BlueField-2 により、複数の GPU の接続が可能になります。 統合された PCIe スイッチ。 BlueField PCIe 4.0 サポートは、次世代 GPU デバイスに対して将来も保証されています。
ピアダイレクト®
Mellanox 製品の PeerDirect は、高速化された通信アーキテクチャです BlueField との間のピアツーピア通信をサポートします。 GPU などのサードパーティ ハードウェア (NVIDIA GPUDirect RDMA など)、 コプロセッサ アダプタ (Intel Xeon Phi など)、またはストレージ アダプタ。 PeerDirect は、標準化されたアーキテクチャを提供します。 デバイスはファブリックを介してリモート デバイスと直接通信できるため、不必要なシステム メモリのコピーや CPU が回避されます。 デバイスとの間でデータを直接コピーすることによるオーバーヘッド。
GPUDirect RDMA テクノロジー
グラフィックスハードウェアのパフォーマンスの急速な向上と相まって、 最近の GPU プログラマビリティの向上により、グラフィックスが向上しました。 アクセラレータは、要求の高い計算処理を行うための魅力的なプラットフォームです さまざまなアプリケーション ドメインのタスクに対応します。 GPU が提供するため、 コア数が多く、浮動小数点演算機能があるため、プラットフォーム間を接続するには高速ネットワークが必要です GPU 間の高スループットと最小のレイテンシーを実現します。 コミュニケーション。 GPUDirect RDMA は実装されたテクノロジーです Bluefield-2 および NVIDIA GPU 内でダイレクト パスを可能にする GPU 間のデータ交換と高速 相互接続します。
GPUDirect RDMA は、両方の点で桁違いの改善を提供します。 GPU間の通信帯域幅と通信レイテンシ 異なるクラスターノードのデバイス。
まとめ
NVIDIA テストにより、BlueField DPU の次のパフォーマンス特性が明らかになりました。
- より小さい 512B I/O サイズでのテストでは、IOPS は高くなりますが、スループットはラインレートより低くなります。一方、4KB I/O サイズでは、スループットは高くなりますが、IOPS 数値は低くなります。
- 100 パーセントの読み取りワークロードと 100 パーセントの書き込みワークロードは同様の IOPS とスループットを提供しましたが、50/50 の混合読み取り/書き込みワークロードでは、ネットワーク接続の両方向を同時に使用することで、より高いパフォーマンスが得られました。
- SPDK を使用すると、カーネル空間ソフトウェアよりも高いパフォーマンスが得られましたが、SPDK は継続的なポーリングを使用してユーザー空間で実行されるため、予想される動作であるサーバー CPU 使用率が高くなります。
- 新しい Linux 5.15 カーネルは、Linux コミュニティによって定期的に追加されたストレージの改善により、4.18 カーネルよりもパフォーマンスが向上しました。
全体として、内部テストの結果は非常に印象的です。の BlueField-2 は 41.5 万 IOPS に達しました これは、現在市場にある他の DPU の 4 倍以上です。
標準的なネットワークの結果も印象的でした。 DPU のクロック数は次のとおりです NVMe-oF の場合は 4 万の 20KB IOPS、および 512 万から XNUMX 万を超える XNUMXKB IOPS。データセンターの全体的なパフォーマンスを向上させたい場合には、この DPU が最適です。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | Facebook | TikTok | RSSフィード