ホーム Enterprise AI ワークロードに対するストレージと GPU の影響

AI ワークロードに対するストレージと GPU の影響

by ブライアン・ビーラー
バイトレイク

IT ベンダーから、自社のソリューションが人工知能、ディープラーニング、機械学習、またはエッジ インテリジェンスに関わる組織に与える影響について聞かない週はほとんどありません。しかし、問題は、これらのソリューションがこれらの各タスクのパフォーマンスにどのような影響を与えるかについての重要な洞察が欠けていることです。私たちは最近、ポーランドに拠点を置く AI および HPC ソリューション ビルダーである byteLAKE と提携することで、この問題について何かできないか検討することにしました。主な目的は、AI ワークロードに対するストレージと GPU の影響を評価することです。IT ベンダーから、自社のソリューションが人工知能、ディープラーニング、機械学習、またはエッジ インテリジェンスに関わる組織に与える影響について聞かない週はほとんどありません。しかし、問題は、これらのソリューションがこれらの各タスクのパフォーマンスにどのような影響を与えるかについての重要な洞察が欠けていることです。私たちは最近、ポーランドに拠点を置く AI および HPC ソリューション ビルダーである byteLAKE と提携することで、この問題について何かできないか検討することにしました。主な目的は、AI ワークロードに対するストレージと GPU の影響を評価することです。

ストレージが AI に与える影響

当初、私たちはローカル ストレージが AI モデルのパフォーマンスに影響を与えるという一般的な概念を調査したいと考えていました。私たちはそのうちの1つを取りました Dell EMC PowerEdge R740xd 私たちの研究室のサーバーは、6130 GB の DRAM を搭載した 256 つの Intel Xeon Gold XNUMX CPU で構成されています。 XNUMX つの異なるローカル ストレージの代替を使用して byteLAKE AI テストを実行しました。テストではレガシーを使用しました キオクシア PX04S SSD と合わせてさらに高速になり、 サムスン 983 ZETインテル Optane 900P.

ストレージ GPU AI Dell EMC 740

ベンチマーク中に、AI 学習プロセスのパフォーマンスを分析しました。テストでは、現実世界のシナリオの学習プロセスを実行します。この場合、テストは byteLAKE 製品の 1 つにおけるトレーニング手順の一部でした。 EWAガード。これは、最先端のリアルタイム検出モデルである最新の YOLO (You Only Look Once) に基づいています。このモデルは、単一の入力層、22 の畳み込み層、5 つのプーリング層、2 つのルーター層、単一の再編成層、および単一の検出層で構成されます。

パフォーマンスの基本的な指標として、5000 エポックのトレーニングの実行時間を使用しました。ベンチマークはストレージ構成ごとに XNUMX 回繰り返され、平均値が以下に示されています。

結果について

  • キオクシア 98時間24分
  • サムスン 98h 44
  • インテル 98h 42

データから明らかなように、ローカル ストレージはパフォーマンスに影響を与えませんでした。テストは SATA SSD から最新かつ最高の Optane まで多岐にわたりましたが、まったく影響はありませんでした。そうは言っても、データの出入りに関してはストレージがより重要な役割を果たす可能性がありますが、AI の計算に関しては、この場合は影響はありませんでした。

GPU とストレージが AI に与える影響

ストレージ データを入手したので、AI に対する GPU の影響を測定するために、PowerEdge に 4 つの NVIDIA TXNUMX を追加しました。このテストでは、同じ XNUMX つのストレージ構成も実行しました。

NVIDIA テスラ T4

結果について

  • キオクシア 4時間30分
  • サムスン 4 時間 28 分
  • インテル 4 時間 27 分

予想通り、GPU は効果をもたらし、実際には指数関数的な効果をもたらし、22 倍の改善をもたらしました。 GPU によって AI の全体的なパフォーマンスが向上するため、ストレージの高速化が影響を与えるのではないかと考えられていました。ただし、SATA ドライブが高速 NVMe に適合しているため、そうではありませんでした。

結論

このテストでは、より高速なストレージ デバイスを使用しても学習パフォーマンスが向上しないことがわかりました。この主な理由は、AI モデルの複雑な構造です。学習時間はデータの読み取り時間よりも長くなります。別の言い方をすると、現在の画像バッチを使用して学習する時間は、次の画像を読み取るのに必要な時間よりも長くなります。その結果、ストレージ操作は AI 計算の背後に隠されます。

NVIDIA T4 を追加する場合、AI による処理の高速化により、ストレージのパフォーマンスに影響が生じるのではないかという考えもありました。これは、T4 であっても AI モデルには依然として重い学習コンポーネントがあり、特に高速なストレージを必要としていなかったため、このテストには当てはまりませんでした。

特定のコンポーネントやシステムが AI に及ぼす影響をさらにテストするにはさらなる作業が必要ですが、この初期データは有用であり、会話の良い出発点になると考えています。 IT の観点から適切な手段がどこにあるのか、また予算支出が最も効果的な結果を生み出すことができるのはどこなのかをより深く理解するには、アプリケーション データが必要です。もちろん、これは、このアクティビティがどこで行われるか (データセンターかエッジか) にも大きく依存します。現時点では、これらの差し迫った質問に答えるのに役立つ有用なデータを提供するために、AI の槍の先端にある byteLAKE やその他の企業による関与を歓迎します。

これは私たちの最初の AI テストですが、最後ではありません。 byteLAKEの共同創設者であるMariusz Kolanko氏は、彼らが以下の製品に取り組んでいることを示唆した。 CFDスイート (ソルバーを高速化する数値流体力学「CFD」用 AI) 深層学習プロセスでは、トレーニングの各エポックに大量のデータが必要です。実際、このモデルはビッグ データ領域でモデルをトレーニングするためにストレージに高い負荷をかける可能性があり、ディープ ラーニング プロセス自体のパフォーマンスに影響を与える可能性があります。最終的には、他のアプリケーションと同様に、アプリケーションが適切なデータセンター リソースを割り当てる必要があることを理解することが重要です。 AI は明らかに、万能のアプリケーションではありません。

byteLAKEについて詳しく見る

Redditで議論する

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | Facebook | RSSフィード