大規模な言語モデルは驚くべき新機能を提供し、AI で可能なことの領域を拡大します。ただし、サイズが大きく、実行特性が独特であるため、コスト効率よく使用することが困難になる場合があります。 NVIDIA TensorRT-LLM は、LLM の開発を加速するためにオープンソース化されました。
大規模な言語モデルは驚くべき新機能を提供し、AI で可能なことの領域を拡大します。ただし、サイズが大きく、実行特性が独特であるため、コスト効率よく使用することが困難になる場合があります。 NVIDIA TensorRT-LLM は、LLM の開発を加速するためにオープンソース化されました。
NVIDIA TensorRT-LLM とは何ですか?
NVIDIA は、Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML (現在は Databricks、OctoML、Tabnine、Togetter AI の一部となっています) などの主要企業と緊密に連携して、LLM 推論を加速および最適化しています。
これらのイノベーションはオープンソースに統合されています。 NVIDIA TensorRT-LLM ソフトウェアは今後数週間以内にリリースされる予定です。 TensorRT-LLM は TensorRT 深層学習コンパイラで構成され、NVIDIA GPU で画期的なパフォーマンスを実現する最適化されたカーネル、前処理および後処理ステップ、およびマルチ GPU/マルチノード通信プリミティブが含まれています。これにより、開発者は新しい LLM を試して、C++ や NVIDIA CUDA の深い知識を必要とせずに最高のパフォーマンスと迅速なカスタマイズ機能を提供できるようになります。
TensorRT-LLM は、オープンソースのモジュラー Python API を通じて使いやすさと拡張性を向上させ、LLM の進化に応じて新しいアーキテクチャと機能拡張を定義、最適化、実行し、簡単にカスタマイズできます。
たとえば、MosaicML は、必要な特定の機能を TensorRT-LLM 上にシームレスに追加し、既存のサービス スタックに統合しました。 Databricks のエンジニアリング担当副社長である Naveen Rao 氏は、「まったくのそよ風でした」と述べています。
NVIDIA TensorRT-LLM のパフォーマンス
記事の要約は、さまざまなアプリケーションの 1 つにすぎません。 LLM。次のベンチマークは、最新の NVIDIA Hopper アーキテクチャ上で TensorRT-LLM によってもたらされるパフォーマンスの向上を示しています。
次の図は、要約パフォーマンスを評価するためのよく知られたデータセットである CNN/Daily Mail と NVIDIA A100 および NVIDIA H100 を使用した記事の要約を示しています。
H100 だけでも A4 よりも 100 倍高速です。 TensorRT-LLM とその利点 (実行中のバッチ処理など) を追加すると、8 倍の増加が得られ、最高のスループットが実現します。
最近 Meta によってリリースされ、生成 AI の組み込みを検討している組織によって広く使用されている人気の言語モデルである Llama 2 では、TensorRT-LLM は A4.6 GPU と比較して推論パフォーマンスを 100 倍高速化できます。
LLM エコシステムのイノベーションは急速に進化
大規模言語モデル (LLM) エコシステムは急速に進化しており、拡張された機能を備えた多様なモデル アーキテクチャが誕生しています。 Meta の 70 億パラメータの Llama 2 など、最大かつ最先端の LLM の一部では、リアルタイム応答を提供するために複数の GPU が必要です。以前は、ピーク パフォーマンスを実現するための LLM 推論の最適化には、AI モデルの手動分割や GPU 実行の調整などの複雑なタスクが含まれていました。
TensorRT-LLM は、デバイス間で重み行列を分散するモデル並列処理の形式であるテンソル並列処理を採用することで、このプロセスを簡素化します。このアプローチにより、開発者の介入やモデルの変更を必要とせずに、NVLink 経由で相互接続された複数の GPU および複数のサーバーにわたる効率的なスケールアウト推論が可能になります。
新しい LLM とモデル アーキテクチャが登場すると、開発者は TensorRT-LLM で利用可能な最新の NVIDIA AI カーネルを使用してモデルを最適化できます。これには、FlashAttendant やマスクされたマルチヘッド アテンションなどの最先端の実装が含まれます。
さらに、TensorRT-LLM には、Meta Llama 2、OpenAI GPT-2、GPT-3、Falcon、Mosaic MPT、BLOOM など、広く使用されている LLM の事前に最適化されたバージョンが含まれています。これらは、ユーザーフレンドリーな TensorRT-LLM Python API を使用して簡単に実装でき、開発者はさまざまな業界に合わせてカスタマイズされた LLM を作成できます。
LLM ワークロードの動的な性質に対処するために、TensorRT-LLM は実行中のバッチ処理を導入し、リクエストのスケジューリングを最適化します。この手法により、GPU の使用率が向上し、実際の LLM リクエストのスループットがほぼ 2 倍になり、総所有コスト (TCO) が削減されます。
さらに、TensorRT-LLM は量子化技術を使用して、モデルの重みとアクティベーションを低精度で表現します (FP8 など)。これによりメモリ消費が削減され、実行中のメモリ関連のオーバーヘッドを最小限に抑えながら、大規模なモデルを同じハードウェア上で効率的に実行できるようになります。
LLM エコシステムは急速に進歩しており、業界全体でより優れた機能とアプリケーションを提供しています。 TensorRT-LLM は LLM 推論を合理化し、パフォーマンスと TCO を向上させます。これにより、開発者はモデルを簡単かつ効率的に最適化できるようになります。 TensorRT-LLM にアクセスするために、開発者と研究者は、組織の電子メール アドレスで NVIDIA 開発者プログラムに登録されている限り、NVIDIA NeMo フレームワークまたは GitHub を通じて早期アクセス プログラムに参加できます。
閉じた思考
The Lab では、ソフトウェア スタックによって十分に活用されていないオーバーヘッドがあることに長い間指摘してきましたが、TensorRT-LLM は、イノベーションだけでなく最適化に改めて焦点を当てることが非常に価値があることを明らかにしています。私たちはさまざまなフレームワークや最先端のテクノロジーをローカルで実験し続けながら、改善されたライブラリと SDK リリースから得られるメリットを独自にテストして検証する予定です。
NVIDIA は明らかに、ハードウェアのパフォーマンスを最後の一滴まで絞り出すために開発時間とリソースを費やし、業界リーダーとしての地位をさらに強固にし、ツールのオープンソースの性質を維持することでコミュニティと AI の民主化への貢献を継続しています。 。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード