ホーム EnterpriseAI AI チェックポイントのスケーリング: 大容量 SSD がモデル トレーニングに与える影響

AI チェックポイントのスケーリング: 大容量 SSD がモデル トレーニングに与える影響

by ケビン・オブライエン

チェックポイントは AI モデルのトレーニングに不可欠であり、回復力、効率性、保存された状態からトレーニングを再開または微調整する機能を保証します。

チェックポイントは AI モデルのトレーニングに不可欠であり、復元力、効率性、保存された状態からトレーニングを再開または微調整する機能を保証します。しかし、ますます複雑化するモデルと広範なトレーニング データセットを備えた最新の AI ワークロードの需要により、ストレージは限界に達しています。

AIワークフローにおけるチェックポイントの役割

AI トレーニングにおけるチェックポイントは、トレーニング中にモデルの完全な状態を定期的に保存する重要なプロセスです。この状態には、モデルの重みとパラメータ、オプティマイザーの状態、学習率スケジュール、トレーニング メタデータが含まれます。チェックポイントは、特定の間隔でトレーニング プロセスの包括的なスナップショットを作成し、中断があった場合にトレーニングの継続性と回復性を提供します。

チェックポイントは通常、反復ベースの間隔 (たとえば、トレーニングの 4 ステップごと) で実行されます。数週間または数か月に及ぶことがあり、膨大な計算リソースを消費する最新の LLM トレーニングでは、潜在的な障害に対するセーフティ ネットとしてこれらのチェックポイントに大きく依存しています。たとえば、GPT-XNUMX クラスのようなモデルをトレーニングすると、モデルのサイズとトレーニング構成に応じて、数百ギガバイトから数テラバイトの範囲のチェックポイントが生成されます。

DALL-E によって生成されたトレーニング プロセス

チェックポイントの主な目的は、単なるバックアップ機能にとどまりません。これはトレーニングの回復力を高めるための重要なメカニズムとして機能し、システム障害、停電、ハードウェアの問題が発生した場合に、最初からやり直すのではなく、最後に保存した状態からトレーニングを再開できるようにします。さらに、チェックポイントはモデル分析に非常に役立ち、研究者はさまざまなトレーニング段階でモデルの進化を調べ、パフォーマンスの低下が検出された場合に以前の状態にロールバックすることができます。

チェックポイント中の書き込みパターンは、ストレージの観点から特に興味深いものです。チェックポイントがトリガーされると、システムは大量のデータをバースト パターンで書き込む必要があります。これにより、トレーニング計算中にストレージ アクティビティが比較的低い期間と、それに続くチェックポイント中に高帯域幅の集中的な書き込み操作が特徴となる、独特の I/O プロファイルが作成されます。これらの書き込み操作は通常、順次実行されるため、高帯域幅の順次書き込みに最適化されたストレージ システムから大きなメリットを得ることができます。

分散トレーニングにおけるさまざまな並列処理戦略は、チェックポイントの動作に大きな影響を与える可能性があります。これらの並列処理戦略は、トレーニング中にチェックポイントが発生するタイミングと、モデルのどの部分がチェックポイントされるかに影響します。最新の分散トレーニング設定では、複数の GPU が同じレイヤーの異なる部分を同時に書き込むことができるため、複雑な I/O パターンが作成されます。この並列書き込み機能は効率化の鍵となりますが、慎重な調整と、データの一貫性を維持しながら同時書き込み操作を処理できる堅牢なストレージ システムが必要です。このプロセスでボトルネックが発生すると、トレーニング全体の遅延につながる可能性があるため、ストレージ システムはこれらの同時書き込みを効果的に管理できる必要があります。

チェックポイントがストレージに書き込まれている間はトレーニング プロセス全体が一時停止する必要があるため、チェックポイント作成が遅いとトレーニングに大きなボトルネックが生じる可能性があります。たとえば、大規模なトレーニング セットアップで、チェックポイント作成に数時間ごとに 30 分かかる場合、トレーニング期間全体でダウンタイムが数時間蓄積される可能性があります。これはトレーニングの効率に直接影響し、特にコンピューティング リソースが時間単位で課金されるクラウド環境では運用コストが増加します。

チェックポイント作成が高速化されると、チームはより頻繁にチェックポイントを作成できるようになり、障害が発生した場合の最大潜在的データ損失が軽減されます。これにより、より積極的なトレーニング アプローチと、より優れた実験反復サイクルが可能になります。さらに、チェックポイントの読み込み時間が短いため、さまざまなトレーニング構成やモデル アーキテクチャでの実験が迅速化され、研究者は以前の状態から簡単に復元して代替アプローチを試すことができます。

ストレージ システムがこれらのチェックポイント操作を効率的に処理できるかどうかは、トレーニング インフラストラクチャ全体の極めて重要な要素になります。チェックポイントのバースト書き込みパターンとトレーニングの持続的な読み取り/書き込み操作の両方を管理できる高性能ストレージ ソリューションは、大規模な言語モデルのトレーニングにかかる​​合計時間とコストに大きな影響を与える可能性があります。したがって、特に大規模なシーケンシャル書き込みの処理と一貫した高帯域幅の維持におけるストレージ サブシステムのパフォーマンス特性は、LLM トレーニング インフラストラクチャの設計において重要な考慮事項となります。

このレポートでは、AI チェックポイントの SSD パフォーマンスを評価し、チェックポイントの速度が重要である場合の最新の Gen5 SSD の利点を、トレーニング中のモデルにとってより有益な場合に膨大な数のチェックポイントを保存できる市場最大の QLC SSD と比較して評価したいと考えました。

チェックポイントのパフォーマンス – DLIO によるベンチマーク

Solidigm SSDのAIトレーニング環境における実際のパフォーマンスを評価するために、 データと学習入力/出力 (DLIO) ベンチマーク ツールアルゴンヌ国立研究所によって開発された DLIO は、ディープラーニング ワークロードの I/O パターンをテストするために特別に設計されています。ストレージ システムがチェックポイント、データ取り込み、モデル トレーニングの課題をどのように処理するかについての洞察を提供します。

DLIO と連携して、集中的なチェックポイント シナリオでのドライブのスループット、レイテンシ、信頼性を測定することを目標としました。このテストは 61.44 TB の D5-P5336 で実行されましたが、初期のパフォーマンス データでは、Solidigm D5-P5336 122 TB バージョンが同様のパフォーマンス プロファイルを提供していることが示されました。また、このテストで PCIe Gen7 の利点を示すために、TLC ベースの D1010-PS5 の結果も含めました。チェックポイントの両方の角度を示すために、これらの XNUMX つのドライブを選択しました。XNUMX つは可能な限り最速のチェックポイント時間であり、もう XNUMX つは単一の SSD に最も多くのチェックポイントを保存します。

この作業に選ばれたプラットフォームは、Ubuntu 760 LTS を実行する Dell PowerEdge R22.04.02 です。2.0 年 13 月 2024 日リリースの DLIO ベンチマーク バージョン XNUMX を使用しました。システム構成の概要は次のとおりです。

  • 2 x Intel Xeon Gold 6430 (32 コア、2.1GHz)
  • 16 x 64GB DDR5-4400
  • 480GB デル ボス SSD
  • シリアルケーブル Gen5 JBOF
    • 7.68TB ソリダイム D7-PS1010
    • 61.44TB ソリダイム D5-P5336

ベンチマークが現実のシナリオを反映していることを確認するために、LLAMA 3.1 405B モデル アーキテクチャに基づいてテストを行い、torch.save() を介してチェックポイントを実装して、モデル パラメータ、オプティマイザの状態、およびレイヤーの状態をキャプチャしました。セットアップでは、8 GPU システムをシミュレートし、4 つの GPU に分散された 2 方向テンソル並列処理と 1,636 方向パイプライン並列処理によるハイブリッド並列処理戦略を実装しました。この構成により、チェックポイントのサイズは XNUMX GB となり、これは現代の大規模言語モデルのトレーニング要件に相当します。

DLIO チェックポイント ワークロードのテスト プロセスは、各ドライブを同様の使用率レベルまで満たすことで構成されていました。61.44 TB の Solidigm D5-P5336 の場合、各パスには 33 のチェックポイント間隔が含まれ、合計 54 TB でした。より小さい 7.68 TB の D7-PS1010 は、合計フットプリントが 4.9 TB で、7 つのチェックポイント間隔に余裕で収まりました。D1010-PSXNUMX には、さらに XNUMX つのチェックポイントを収容できましたが、使用率は希望よりもわずかに高くなりました。

DLIO チェックポイント ワークロードでは、Gen4 QLC ベースの 61.44 TB D5-P5536 と Gen5 TLC ベースの 7.68 TB D7-PS1010 を比較したときに興味深い結果が得られました。最初のパスでドライブがいっぱいになると、5 つの SSD モデル間のパフォーマンスの差が広がりました。より高速な Gen1010 PS464 は、各チェックポイントを平均 623 秒で完了しましたが、Gen4 P5336 は 579 秒でした。587 回目と 1010 回目のパスでは、差は PS676 では 680 秒と 5336 秒、PXNUMX では XNUMX 秒と XNUMX 秒に縮まりました。

チェックポイント間隔のギャップをできるだけ小さくしたい企業にとって、TLC ベースの Gen5 PS1010 は完了時間が最速という利点があります。コスト効率よく多くのチェックポイントを保持することが目標であれば、QLC ベースの Gen4 P5336 がまさにそれを実現します。パス 17 と XNUMX の間、両方のドライブの平均チェックポイント時間の差は XNUMX% 未満でした。

GPUDirect ストレージ帯域幅

DLIO は AI ワークフローでフラッシュ パフォーマンスを示しますが、チェックポイントが復元されるまでワークロードは完全に書き込みベースです。AI ワークロードにおける Solidigm D7-PS1010 と D5-P5336 の全体像を把握するために、GDSIO を使用した読み取り帯域幅の測定も含めました。

GPUダイレクトストレージの仕組み

従来、GPU が NVMe ドライブに保存されたデータを処理する場合、データは GPU に到達する前にまず CPU とシステム メモリを通過する必要があります。このプロセスでは、CPU が仲介役となり、遅延が増加し、貴重なシステム リソースが消費されるため、ボトルネックが発生します。GPU ダイレクト ストレージは、GPU が PCIe バスを介してストレージ デバイスから直接データにアクセスできるようにすることで、この非効率性を解消します。この直接パスにより、データ移動に関連するオーバーヘッドが削減され、より高速で効率的なデータ転送が可能になります。

AI ワークロード、特にディープラーニングを伴うワークロードは、非常にデータ集約的です。大規模なニューラル ネットワークのトレーニングにはテラバイト単位のデータ処理が必要であり、データ転送の遅延は GPU を十分に活用できず、トレーニング時間が長くなる可能性があります。GPU ダイレクト ストレージは、データが可能な限り迅速に GPU に配信され、アイドル時間を最小限に抑え、計算効率を最大化することで、この課題に対処します。

DLIO テストと同様に、高速 Gen5 SSD と大容量 QLC ドライブの違いをより深く理解し、特徴づけることが目標です。すべての AI ワークロードが同じというわけではなく、ニーズに応じて各ドライブに明確な利点があります。

テスト構成マトリックス

当社のテスト プラットフォームでは、NVIDIA L4 を使用して、次のパラメータのあらゆる組み合わせを体系的にテストしました。

  • ブロックサイズ: 1M、128K、64K、16K、8K
  • スレッド数: 128、64、32、16、8、4、1
  • ジョブ数: 16
  • バッチサイズ: 16

最初に調べたのは QLC ベースの D5-P5336 で、4.2M の転送サイズで IO 深度 1 のときに最高 128GiB/秒に達しました。ブロック サイズの効果により、帯域幅が 8K から 1M に大幅に向上しました。IO 深度の増加による利点は 32 で徐々に薄れ始め、ワークロードが横ばいになり始めました。

次に、5M ブロック サイズと IO 深度 1010 で最大 6.2GiB/秒まで拡張可能な Gen1 PS-128 を見てみましょう。全体的に、Gen4 ベースの P5336 よりも優れたパフォーマンスを発揮し、特定のワークロードでは大幅な向上が見られました。注目すべき改善点の 128 つは 64K ブロック サイズで、IO 深度 128 と 1010 で、PS5336 は PXNUMX の XNUMX 倍の読み取り帯域幅を提供しました。

両方の SSD が NVIDIA L4 を使用してテストされたことに注意することが重要です。Gen4 D5-P5336 は最高レベルかそれに近いレベルですが、H100 などの上位モデルの NVIDIA GPU は D7-PS1010 でより高いパフォーマンスを示しました。ドライブの速度が最終的な決定要因となるお客様もいれば、全体的な密度を優先するお客様もいます。 ソリディグム ソリューションを提供する 両方とも、 QLC および TLC SSD の提供。

まとめ

AI トレーニングの規模と複雑さが急増するにつれて、基盤となるストレージ インフラストラクチャは、ペースを維持するだけでなく、テンポを設定する必要もあります。2 つの非常に異なる SSD を使用したテストでは、チェックポイントのレイテンシを最小限に抑えたり、コスト効率の高いスケーラビリティのためにチェックポイント密度を最大化したりするなど、特定のトレーニングの優先順位に合わせてストレージ ソリューションを調整することの重要性が示されました。

評価では、DLIO ベンチマークと広範なハイブリッド並列 LLM チェックポイント ワークフローを使用して、現実的な AI トレーニング条件下で Solidigm D5-P5336 (61.44 TB) と D7-PS1010 (7.68 TB) をテストしました。ドライブがいっぱいになったときに、複数回の実行にわたるチェックポイント書き込みパフォーマンスを反映するメトリックを取得し、Gen4 QLC ベースの D5-P5336 と Gen5 TLC ベースの D7-PS1010 の完了時間の違いを強調しました。

D7-PS1010 は最速のチェックポイント書き込みを実現しましたが、D5-P5336 はわずかなパフォーマンスの低下で、コスト効率と容量の面で優れた利点を示しました。NVIDIA L4 GPU を介した GDSIO による GPU ダイレクト ストレージの読み取り帯域幅をさらに調査しました。Solidigm D5-P5336 は 4.2M の転送サイズで最大 1GiB/秒の読み取り帯域幅を提供し、D7-PS1010 は 6.2GiB/秒まで大幅に向上しました。NVIDIA L40s や H100/H200 などのさらに大きな GPU を活用すると、さらに強力なパフォーマンスが得られます。

将来的には、Solidigm D5-P5336 122TB SSD の比類ない容量が AI のトレーニングと展開を一変させるでしょう。モデルのサイズとチェックポイントの要件が急増し続ける中、これらの大容量ドライブは、これまでは実現できなかったトレーニング戦略を可能にする、新たなレベルの効率性と柔軟性への扉を開きます。大容量 SSD ソリューションにおける Solidigm のリーダーシップにより、組織はより少ないドライブにより多くのデータとチェックポイントを保存できるようになり、AI の複雑さの次の波に対してインフラストラクチャを将来にわたって保護できるようになります。

ソリダイム D5-P5336 122TB SSD

このレポートは Solidigm によって後援されています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード