ホーム EnterpriseAI Solidigm の大容量 61.44TB NVMe SSD で AI の効率を向上

Solidigm の大容量 61.44TB NVMe SSD で AI の効率を向上

by ジョーダン・ラナス

生成型 AI の時代では、これまで以上に多くのデータが作成されています。Solidigm は、現代の AI ファクトリーにおける多くの課題に対するソリューションを提供します。

Solidigm 61.44TB U.2 NVMe SSD の高密度が私たちのお気に入りであることは周知の事実です。私たちは数多くの耐久性とパフォーマンスのテストを実施し、科学的な発見をし、世界記録の計算を新たな、並外れた高みへと押し上げました。AI ブームが私たちの周りで猛烈な勢いで盛り上がっている中、次の論理的なステップは、Solidigm NVMe ドライブが AI 2024 のダイナミックな世界でどのように機能するかを確認することでした。

超高密度ストレージの利点を理解する

Solidigm の 61.44TB QLC SSD は、その驚異的なストレージ容量が際立っており、データ センターはより少ないドライブにより多くのストレージを詰め込むことができます。この極限の密度は、データ セットが急激に増加し、効率的なストレージ ソリューションが最重要視される AI サーバーで特に有利です。これらの大容量 SSD を使用することで、データ センターは物理ドライブの数を減らし、フットプリントを縮小し、消費電力を抑え、メンテナンスを簡素化できます。

Solidigm SSD を搭載した Lenovo ThinkSystem SR675 V3 の正面図

GPU サーバーにおける PCIe レーンの制限

最新の GPU サーバーの主な課題の 61.44 つは、GPU が割り当てを受けた後に利用できる PCIe レーンの数が限られていることです。AI ワークロードにとって重要な GPU には、かなりの PCIe 帯域幅が必要であり、ストレージ デバイスやネットワークなどの他のコンポーネントに使用できるレーンが限られていることがよくあります。この制約により、利用可能な PCIe レーンの使用を最適化することが不可欠になります。Solidigm の XNUMXTB QLC SSD は、単一のドライブで膨大なストレージ容量を提供し、複数のドライブの必要性を減らし、GPU やその他の重要なコンポーネント用に PCIe レーンを節約することで、ソリューションを提供します。

Lenovo ThinkSystem SR675 V3 ドライブ エンクロージャの上部内部図

AI ワークロードとストレージ要件

AI ワークロードは、データ準備、トレーニングと微調整、推論の 5 つのフェーズに大まかに分類できます。各フェーズには独自のストレージ要件があり、Solidigm の大容量 SSD は、これらのフェーズ全体でパフォーマンスと効率を大幅に向上させることができます。Solidigm D5336-PXNUMX などの大容量 QLC ドライブを導入すると、すべての AI ワークロードにメリットがあります。メリットのほとんどは、データ準備からトレーニング、微調整から推論まで多岐にわたります。

データの準備

データ準備はあらゆる AI プロジェクトの基礎であり、データの収集、クリーニング、変換、拡張が含まれます。生データ セットは膨大になる可能性があるため、このフェーズでは大規模なストレージが必要です。Solidigm の 61.44TB QLC SSD は、パフォーマンスを犠牲にすることなく、膨大な生データを保存できます。さらに、これらの SSD の高速シーケンシャル読み取りおよび書き込みにより、データへの迅速なアクセスが保証され、準備プロセスが加速されます。データ準備に関して、Solidigm 61.44TB QLC SSD は、次のような利点を備え、上記のすべての要求を満たします。

  • 大容量のストレージ容量: 大規模なデータセットを効率的に処理します。
  • 高いシーケンシャル速度: 高速なデータアクセスと処理。
  • 待ち時間の短縮: データ取得の遅延を最小限に抑え、ワークフローの効率を向上させます。

トレーニングと微調整

AI モデルのトレーニングは、ニューラル ネットワークに大量のデータ セットを投入して重みとバイアスを調整する集中的なプロセスです。このフェーズは計算負荷が高く、ストレージと GPU 間の高速データ交換に対応するために、高い IOPS (1 秒あたりの入出力操作数) と低レイテンシのストレージが必要です。Solidigm の SSD はこの点で優れており、高いパフォーマンスと耐久性を備えています。これらの SSD の極度の密度により、より広範なデータ セットをトレーニングに使用できるため、より正確なモデルにつながる可能性があります。トレーニングと微調整の要求を満たすために、Solidigm SSD は次の機能を提供します。

  • 高いIOPS: トレーニングに不可欠な迅速なデータ交換をサポートします。
  • 耐久性: QLC テクノロジーは読み取り/書き込み負荷の高いワークロード向けに最適化されており、繰り返しのトレーニング サイクルに最適です。
  • スケーラビリティ: 物理ドライブを追加せずにストレージを拡張し、PCIe レーンの効率的な使用を維持します。

推論

トレーニングが完了すると、AI モデルが展開され、新しいデータに基づいて予測や決定が行われます。これは推論と呼ばれます。このフェーズでは、多くの場合、前処理済みのデータへの迅速なアクセスと、増加する読み取り要求の効率的な処理が必要になります。Solidigm の 61.44 TB QLC SSD は、必要な読み取りパフォーマンスと低レイテンシを提供し、推論操作がスムーズかつ迅速に実行されるようにします。Solidigm SSD は、次の利点を提供することで、パフォーマンスと低レイテンシを上回ります。

  • 高速読み取りパフォーマンス: リアルタイム推論のためのデータへの迅速なアクセスを保証します。
  • 低遅延: 即時の応答を必要とするアプリケーションにとって重要です。
  • 大容量: 膨大な推論データと履歴結果を効率的に保存します。

QLC テクノロジーは、高ストレージ容量、コスト効率、高速読み取り速度、効率的な PCIe 使用率、耐久性、ワークフロー効率の向上など、推論アプリケーションに大きなメリットをもたらします。これらの利点により、推論タスクのパフォーマンス、スケーラビリティ、コスト効率が総合的に向上し、QLC ドライブは最新の AI および機械学習の導入に最適な選択肢となります。

大容量ストレージを GPU にできるだけ近づけることが重要なのはなぜですか?

AI と機械学習の場合、ストレージと GPU の近さがパフォーマンスに大きな影響を与える可能性があります。AI データ センターを設計するには、最適な機能と効率を確保するために、複数の要素を慎重に検討する必要があります。このため、GPU に可能な限り近い場所に大規模なストレージを配置することが重要です。最近調査したように、大規模なネットワーク接続ストレージ ソリューションへのアクセスは、万能ツールになりつつありますが、それだけに頼ることが常に最適な選択であるとは限りません。

レイテンシと帯域幅

GPU の近くに十分なストレージを配置する主な理由は、レイテンシを最小限に抑え、帯域幅を最大化するためです。AI ワークロード、特にトレーニング中は、ストレージと GPU の間で頻繁かつ大量のデータ転送が行われます。レイテンシが高いと、プロセス全体がボトルネックとなり、トレーニング時間が長くなり、効率が低下します。

迅速なデータ可用性が重要な AI ワークロードでは、低レイテンシにより GPU がデータを迅速に受信し、アイドル時間が短縮され、全体的な計算効率が向上します。トレーニング フェーズでは、大量のデータを継続的に GPU に送り込んで処理する必要があります。DAS はレイテンシを最小限に抑えることで、AI アプリケーションの高速要求に応え、トレーニング時間を短縮し、ワークフローの効率化を実現します。

Lenovo ThinkSystem SR675 V3の内部ビュー、GPUの表示

NVMe SSD は PCIe インターフェイスの可能性を最大限に引き出し、データ転送を大幅に高速化し、低速な既存のインフラストラクチャを回避します。この高帯域幅は、大規模なデータセットの迅速な移動を必要とする AI ワークロードに不可欠です。ストレージを直接接続すると、GPU で利用できる帯域幅が最大化され、複雑なモデルのトレーニングに必要な膨大なデータにすばやくアクセスできるようになります。

対照的に、従来のネットワーク接続ストレージでは、レイテンシの層が追加され、通常は帯域幅が低下します。高速ネットワークでも、ネットワーク プロトコルに関連するオーバーヘッドや潜在的なネットワーク輻輳によってパフォーマンスが低下する可能性があります。GPU に直接大容量を接続すると、データのステージングが可能になり、GPU が処理を開始したときにジョブが完了するまで待つ必要がなくなります。

データスループットとI/Oパフォーマンス

ローカル NVMe SSD は、大量の IOPS (1 秒あたりの入出力操作) の処理に優れています。これは、読み取り/書き込みを集中的に行う AI ワークロードにとって非常に重要です。トレーニング フェーズでは、AI モデルは膨大なデータ リポジトリに迅速にアクセスする必要があるため、データ トランザクションの高需要に対応できるストレージ ソリューションが必要になります。

NVIDIA L40S GPU の上から見た図

Solidigm D5-P5336 は、大容量、高パフォーマンスのシナリオ向けに設計されており、優れた IOPS を提供し、データの取得と書き込みのプロセスを高速化します。この機能により、GPU はデータを待つのではなく計算でビジー状態を維持できるため、効率が最大化され、トレーニング時間が短縮されます。ローカル NVMe SSD の高 IOPS パフォーマンスは、最適なパフォーマンスのために迅速なデータ アクセスと処理が不可欠な AI アプリケーションの要求の厳しい環境に最適です。

データ管理

いくつかのシナリオでは、十分なストレージを GPU に直接接続するとデータ管理が簡素化されますが、GPU サーバーにデータをステージングするために必要なデータ管理レイヤーが追加されます。理想的な状況では、GPU は処理に忙しく、CPU はネットワークに接続してチェックポイントを保存したり、新しいデータを取得したりします。61.44 TB の Solidigm ドライブは、必要なデータ トランザクションの数を減らすのに役立ちます。また、簡素化されたネットワーク設定と分散ファイル システムを使用して、これを考慮することもできます。この単純なアプローチにより、ワークフローが合理化され、データ関連のエラーや遅延の可能性が軽減されます。

Lenovo ThinkSystem SR675 V3 の正面図

1 台のサーバー内で作業し、ローカルに接続された少数の GPU に収まるモデルを微調整しているとします。その場合、ネットワーク ストレージ ソリューションよりもセットアップと管理が簡単なローカル ストレージの利点があります。ネットワーク接続ストレージの構成、管理、保守は複雑で時間がかかり、多くの場合、専門知識と追加のインフラストラクチャが必要になります。対照的に、NVMe SSD などのローカル ストレージ ソリューションは、既存のサーバー セットアップに簡単に統合できます。

Lenovo ThinkSystem SR675 V3 回路図

構成とメンテナンスがシンプルになったことで、IT チームはネットワーク ストレージ管理の複雑さに対処するのではなく、AI ワークロードの最適化に集中できるようになりました。その結果、ローカル NVMe SSD を使用すると、AI アプリケーション用のストレージの導入と管理がより簡単かつ効率的になります。

コストと拡張性

NAS ソリューションは、ストレージ デバイスを追加することで水平方向に拡張できますが、ネットワーク インフラストラクチャに関連するコストと潜在的なパフォーマンスのボトルネックも伴います。逆に、大容量のローカル ストレージに投資すると、大規模なネットワーク アップグレードを行わなくても、すぐにパフォーマンス上のメリットが得られます。

ローカル ストレージ ソリューションは、高価なネットワーク ハードウェアや複雑な構成が不要になるため、ネットワーク接続ストレージ システム (NAS) よりもコスト効率に優れていることがよくあります。NAS の設定と保​​守には、高速スイッチやルーターなどのネットワーク機器への多額の投資と、継続的なネットワーク管理および保守コストがかかります。

サーバーに直接統合された大容量のローカル SSD はステージング領域として使用され、追加のインフラストラクチャの必要性を減らします。この直接統合により、ハードウェア コストが削減され、セットアップ プロセスが簡素化されるため、高額な費用をかけずに AI ワークロードを最適化したい組織にとって、より予算に優しいものになります。

テスト方法

AI サーバー セットアップにおける Solidigm 61.44TB QLC SSD のパフォーマンスを徹底的に評価するために、Lenovo ThinkSystem SR5336 V61.44 にインストールされた 675 つの Solidigm P3 40TB SSD アレイのベンチマークを行います。このサーバー構成には、0 つの NVIDIA LXNUMXS GPU のセットも含まれます。この目的で使用されるベンチマーク ツールは、GDSIO です。これは、GPU ダイレクト ストレージ (GDS) 環境でのストレージ パフォーマンスを測定するために設計された専用ユーティリティです。XNUMX つの GPU から XNUMX つのドライブのパフォーマンス、および XNUMX つの GPU から RAIDXNUMX 用に構成された XNUMX つのドライブの XNUMX つの構成を検討しました。

675 つの L3S GPU を搭載した Lenovo ThinkSystem SR40 VXNUMX の上面図

引き続きお付き合いください。次のセクションでは、テストの詳細と、テストが AI パイプラインのさまざまな段階を模倣する方法について説明します。

テストパラメータ

ベンチマーク プロセスには、AI パイプラインのさまざまな段階をシミュレートするさまざまなテスト パラメータが含まれます。これらのパラメータには、io_sizes、threads、transfer_type などがあり、それぞれ AI ワークロードの特定の側面を表すように選択されています。

1. IO サイズ:

  • 4K、128K、256K、512K、1M、4M、16M、64M、128M: これらのさまざまな I/O サイズは、さまざまなデータ転送パターンをシミュレートするのに役立ちます。小さい I/O サイズ (128K、256K、512K) は、データ準備段階で一般的に見られる、小さなデータ チャンクに頻繁にアクセスされるシナリオを模倣します。大きい I/O サイズ (1M、4M、16M、64M、128M) は、データ バッチ全体が移動されるトレーニングおよび推論段階でよく見られるバルク データ転送を表します。

2.スレッド:

  • 1、4、16、32: スレッドの数は、データ アクセスの同時実行レベルを表します。4 つのスレッドではベースライン パフォーマンスがテストされますが、スレッド数が多い場合 (16、32、XNUMX) は、複数のデータ ストリームが同時に処理される大規模なトレーニング セッション中に発生するような、より集中的な並列データ処理アクティビティをシミュレートします。

3. 転送タイプ:

  • ストレージ->GPU (GDS): この転送タイプは GPU ダイレクト ストレージ (GDS) を活用し、CPU をバイパスして SSD と GPU 間の直接データ転送を可能にします。この構成は、リアルタイムの推論シナリオを反映して、直接データ パスの効率をテストし、レイテンシを最小限に抑えるのに最適です。
  • ストレージ->CPU->GPU: この従来のデータ転送パスでは、データをストレージから CPU に移動してから GPU に転送します。この方法は、データ準備フェーズで予想される、CPU レベルでの中間処理またはキャッシュが発生するシナリオをシミュレートします。このデータ パスは、GPU ベンダーに関係なくパフォーマンスを表すと言えます。
  • ストレージ->PAGE_CACHE->CPU->GPU: このパスは、データ転送にページ キャッシュを使用します。データはまずメモリにキャッシュされ、その後 CPU で処理されて GPU に転送されます。この構成は、キャッシュ メカニズムとメモリ帯域幅が全体的なパフォーマンスに与える影響をテストするのに役立ちます。これは、効率化のためにデータが事前処理されキャッシュされる可能性があるトレーニング中に重要です。繰り返しになりますが、このデータ パスは GPU ベンダーに関係なくパフォーマンスを表すと言えます。

AIパイプラインステージの模倣

ベンチマーク テストは、AI パイプラインのさまざまな段階を反映するように設計されており、取得されるパフォーマンス メトリックが関連性があり包括的であることを保証します。

データの準備:

  • IO サイズ: 小さい (128K、256K、512K)
  • スレッド: 1、4
  • 転送タイプ: 「ストレージ->CPU->GPU」、「ストレージ->PAGE_CACHE->CPU->GPU」
  • 目的: データの取り込み、クリーニング、拡張の各フェーズで重要な、頻繁な小規模データ転送と CPU の使用を SSD がどのように処理するかを評価します。

トレーニングと微調整:

  • IO サイズ: 中〜大(1M、4M、16M)
  • スレッド: 4、16、32
  • 転送タイプ: 「ストレージ->GPU(GDS)」、「ストレージ->CPU->GPU」
  • 目的: モデルのトレーニングと微調整中に必要な集中的なデータ処理を表す、複数の同時データ ストリームによる高データ スループット条件下でのパフォーマンスを評価します。

推論:

  • IO サイズ: 大容量から超大容量(16M、64M、128M)および4K
  • スレッド: 1、4、16
  • 転送タイプ: ストレージ -> GPU (GDS)
  • 目的: 迅速なデータ アクセスと最小限のレイテンシが最も重要なリアルタイム推論アプリケーションにとって重要な、GPU への直接の大規模データ転送の効率を測定します。4K は、RAG データベース検索の発生を調査するように設計されています。

これらのパラメータを変更し、さまざまな構成をテストすることで、高性能 AI サーバー環境における Solidigm 61.44TB QLC SSD の詳細なパフォーマンス プロファイルを取得し、さまざまな AI ワークロードに対する適合性と最適化についての洞察を得ることができます。数週間にわたって 1200 回を超えるテストを実行してデータを調査しました。

サーバの設定

Lenovo ThinkSystem SR675 V3 正面図


Lenovo ThinkSystem SR675 V3 アーキテクチャ

ベンチマーク結果

まず、トレーニングと推論タイプのワークロードを見てみましょう。GPU Direct 1024K IO サイズは、モデルの読み込み、GPU に読み込まれるトレーニング データ、および画像やビデオ作業などのその他の大規模なバッチ推論ジョブを表します。

4ドライブ I / Oタイプ 転送タイプ スレッド データセットのサイズ (KiB) IO サイズ (KiB) スループット (GiB/秒) 平均遅延 (usecs)
レビューを グラフィック 8 777,375,744 1024 12.31 634.55
お客様の声は グラフィック 8 579,439,616 1024 9.30 840.37
ランドライト グラフィック 8 751,927,296 1024 12.04 648.67
ランドリード グラフィック 8 653,832,192 1024 10.50 743.89

次に、RAGタイプのワークロードのIOサイズが小さい場合を見てみましょう。たとえば、ディスクに保存されたRAGデータベースへの高速なランダム4kデータアクセスなどです。推論ワークロードが非シーケンシャルな方法でデータにアクセスする必要があるシナリオでは、効率的なランダムI/Oが必要です。推奨システムや検索アプリケーションなどです。RAID0構成は、シーケンシャルおよびランダム操作で優れたパフォーマンスを発揮します。これは、RAGのようなアクセスパターンが混在するAIアプリケーションにとって重要です。読み取りレイテンシの値は、特に GPUD モード。

ここでは 8 つのワーカー スレッドが選択されました。これは SSD を完全に飽和させるものではありませんが、RAG タイプのワークロードで見られるもののより代表的なスナップショットを提供します。これは、作業数が制限され、キューの深さが高い GPU の観点から、既製のアプリケーションのコンテキストを提供します。これは、ソフトウェアのさらなる最適化によって達成できるパフォーマンスがまだ残っていることを示していることに注意してください。

4ドライブ I / Oタイプ 転送タイプ スレッド データセットのサイズ (KiB) IO サイズ (KiB) スループット (GiB/秒) 平均遅延 (usecs)
レビューを グラフィック 8 69,929,336 4 1.12 27.32
お客様の声は グラフィック 8 37,096,856 4 0.59 51.52
ランドライト グラフィック 8 57,083,336 4 0.91 33.42
ランドリード グラフィック 8 27,226,364 4 0.44 70.07

サポートされていないライブラリまたは GPU のために GPU Direct を使用しない場合は、データ転送に CPU を利用する場合に、次の 675 つのタイプがあります。この特定のサーバー、Lenovo ThinkSystem SR3 VXNUMX では、すべての PCIe デバイスが CPU ルート コンプレックスを通過するため、同等の帯域幅が得られますが、レイテンシに影響が出ます。PCIe スイッチを備えたシステムでは改善が期待できます。

4ドライブ I / Oタイプ 転送タイプ スレッド データセットのサイズ (KiB) IO サイズ (KiB) スループット (GiB/秒) 平均遅延 (usecs)
レビューを CPU_GPU 8 767,126,528 1024 12.24 638.05
お客様の声は CPU_GPU 8 660,889,600 1024 10.58 738.75
ランドライト CPU_GPU 8 752,763,904 1024 12.02 649.76
ランドリード CPU_GPU 8 656,329,728 1024 10.47 746.26
レビューを CPU_GPU 8 69,498,220 4 1.11 27.47
お客様の声は CPU_GPU 8 36,634,680 4 0.58 52.31

この表は、特に読み取り操作のスループット率が高いことを示しています。 GPUD 転送タイプ。例えば、 GPUD モードでは 10.5 GiB/秒以上に達します。これは、大規模なモデルのトレーニングに高速なデータ アクセスを必要とすることが多い AI ワークロードに役立ちます。

ランダム操作とシーケンシャル操作のバランスの取れたパフォーマンスにより、この構成は、これらのアクセス パターンの組み合わせを必要とすることが多い推論タスクに適しています。レイテンシの値は極端に低いわけではありませんが、多くの推論アプリケーションでは許容範囲内です。

さらに、書き込み操作は最大 12.31 GiB/秒、読み取り操作は最大 9.30 GiB/秒に達するなど、優れたスループット レートも実現しています。この高いスループットは、モデルのトレーニングや推論のために高速なデータ アクセスを必要とする AI ワークロードに役立ちます。

シーケンシャルリードと最適化

128M の IO サイズに移行し、ワーカー スレッドを反復処理すると、ストレージ ソリューションのワークロードを最適化した結果を確認できます。

転送タイプ スレッド スループット (GiB/秒) レイテンシ (マイクロ秒)
ストレージ->CPU->GPU 16 25.134916 79528.88255
ストレージ->CPU->GPU 4 25.134903 19887.66948
ストレージ->CPU->GPU 32 25.12613 159296.2804
ストレージ -> GPU (GDS) 4 25.057484 19946.07198
ストレージ -> GPU (GDS) 16 25.044871 79770.6007
ストレージ -> GPU (GDS) 32 25.031055 159478.8246
ストレージ->ページキャッシュ->CPU->GPU 16 24.493948 109958.4447
ストレージ->ページキャッシュ->CPU->GPU 32 24.126103 291792.8345
ストレージ -> GPU (GDS) 1 23.305366 5362.611458
ストレージ->ページキャッシュ->CPU->GPU 4 21.906704 22815.52797
ストレージ->CPU->GPU 1 15.27233 8182.667969
ストレージ->ページキャッシュ->CPU->GPU 1 6.016992 20760.22778

ストレージとやり取りするアプリケーションを適切に作成することは最も重要であり、企業が GPU 投資を最大限に活用したいと考えている場合は考慮する必要があります。

GPU ダイレクト

すべてのテストで GPU Direct のみのパフォーマンスを分離することで、NVIDIA テクノロジがどの程度優れているかを大まかに把握できます。

I / Oタイプ 転送タイプ スレッド データセットのサイズ (KiB) IO サイズ (KiB) スループット (GiB/秒) 平均遅延 (usecs)
レビューを グラフィック 8 777,375,744 1024 12.31 634.55
お客様の声は グラフィック 8 579,439,616 1024 9.30 840.37
ランドライト グラフィック 8 751,927,296 1024 12.04 648.67
ランドリード グラフィック 8 653,832,192 1024 10.50 743.89
レビューを グラフィック 8 69,929,336 4 1.12 27.32
お客様の声は グラフィック 8 37,096,856 4 0.59 51.52
ランドライト グラフィック 8 8,522,752 4 0.14 224.05
ランドリード グラフィック 8 21,161,116 4 0.34 89.99
ランドライト グラフィック 8 57,083,336 4 0.91 33.42
ランドリード グラフィック 8 27,226,364 4 0.44 70.07

閉じた思考

この記事は Solidigm 61.44TB P5336 に焦点を当てているため、一歩下がって、TLC と QLC のパフォーマンスと容量の議論について考えてみましょう。TLC 7D NAND を使用する D3 ラインなど、Solidigm ポートフォリオの他の製品を見ると、パフォーマンスと引き換えに容量が制限されています。特に 61.44TB Solidigm ドライブを使用したテストでは、低レイテンシで GPU に十分なデータを送り続けることができる総合的なスループット パフォーマンスを確認しています。ODM および OEM からは、GPU にできるだけ近いストレージに対する需要についてのフィードバックが寄せられており、Solidigm D5-P5336 ドライブは要件を満たしているようです。GPU サーバーで使用できる NVMe ベイの数は通常限られているため、高密度の Solidigm ドライブはローカル GPU サーバー ストレージのリストの最上位にあります。

結局のところ、これらのドライブが提供する膨大なストレージ容量は、GPUとともにソリューションの一部に過ぎず、依然として優れたパフォーマンスを発揮する必要があります。単一のドライブのパフォーマンスを複数のドライブに集約すると、最も要求の厳しいタスクでも十分なスループットが得られることがわかります。GDSIOを使用した4ドライブRAID0構成の場合、書き込み操作の合計スループットは最大12.31 GiB/秒に達し、読み取り操作では最大XNUMX GiB/秒に達する可能性があります。 25.13 GiB/秒。

Lenovo ThinkSystem SR675 V3 の GPU 背面図

このレベルのスループットは、膨大なデータセットで大規模なディープラーニング モデルをトレーニングしたり、高解像度のビデオ ストリームでリアルタイム推論を実行したりするなど、最も要求の厳しい AI タスクにも十分対応できます。RAID0 アレイにドライブを追加することでパフォーマンスを拡張できるため、高速で効率的なデータ アクセスが重要な AI アプリケーションにとって魅力的な選択肢となります。

ただし、RAID0 構成は、高いパフォーマンスを提供しますが、データの冗長性は提供されないことに注意してください。したがって、ドライブ障害が発生した場合にデータが失われないように、適切なバックアップとデータ保護戦略を実装することが重要です。

今日のデータセンターにおけるもう 1 つの独特な考慮事項は電力です。AI サーバーがこれまで以上に多くの電力を消費し、減速の兆候が見られない中、利用可能な総電力は、データセンターに GPU を導入しようとしている人にとって最大のボトルネックの 1 つです。つまり、可能な限りすべてのワットを節約することにさらに重点が置かれることになります。ワットあたりの TB を増やすことができれば、TCO とインフラストラクチャ コストに関する興味深い思考プロセスにアプローチできます。これらのドライブを GPU サーバーから取り外して、ラック スケールのストレージ サーバーに配置するだけでも、極めて大きな容量で膨大なスループットを実現できます。

Solidigm D5-P5336 61.44TB QLC SSD を NVMe スロット制限の AI サーバーと統合することは、現代の AI ワークロードのストレージ課題に対処する上で大きな進歩を意味します。その極限の密度、パフォーマンス特性、および TB/ワット比は、データの準備、トレーニングと微調整、および推論フェーズに最適です。PCIe レーンの使用を最適化し、大容量のストレージ ソリューションを提供することで、これらの SSD により、現代の AI ファクトリーはより高度で正確なモデルの開発と展開に集中し、AI 分野全体でイノベーションを推進できます。

Solidigm SSD について

Lenovo ThinkSystem SR675 V3 ページ

このレポートは Solidigm によって後援されています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード