Home EnterpriseAI NVIDIA Jetson AGX Orin の再考: 小さなパッケージ、大規模な言語モデル

NVIDIA Jetson AGX Orin の再考: 小さなパッケージ、大規模な言語モデル

by コリン・バルツァー

Jetson AGX Orin を再検討し、低電力デバイスで Chat-GPT タイプ LLM を取得する方法を示します。

編集者注: 私たちは、チームの新しいメンバーと一緒に、NVIDIA Jetson プラットフォームを改めて詳しく調べる機会を得ました。 昨年のJetsonの最終製品版であるLenovo SE70でビジョンモデルを実行した記事をご覧ください。

NVIDIA の Jetson プラットフォームを使用すると、開発者はエッジ AI 開発に特化した AI オプションを探索できます。これらのシステムにより、片手で持てるパッケージで GPU 対応サーバー パフォーマンスを実現できます。Jetson AGX Orin 開発キットを提供していただき、ローカル LLM をいかに簡単に作成できるか試していただいた NVIDIA に心より感謝いたします。

NVIDIA Jetson AGX ORINJetson AGX Orin DevKit は、幅と長さがわずか 11cm (約 4.3 インチ)、高さが 7.2cm (約 2.8 インチ) の小型フォーム ファクタ設計です。Jetson AGX Orin Dev Kit の内部には、2048 個の Tensor コアと最大周波数 64GHz を備えた 1.3 コアの NVIDIA Ampere アーキテクチャ GPU が搭載されています。また、12MB L78 キャッシュ、8.2MB L64 キャッシュ、最大周波数 3GHz の Arm Cortex CPU 2 コア A6AE v3 2.20 ビット CPU もあります。

NVIDIA Jetson AGX ORIN フロント

これら 64 つのパワー コンポーネントと、速度 5GB/秒の 204.8GB LPDDR275 統合メモリを組み合わせることで、この小型マシンの最も印象的な性能が実現します。小型 GPU と DLA の 64GB を搭載したモデルでは、8.6 TOPS を実現しています。これは、32 TOPS しか実現できなかった NVIDIA の前身である Jetson AGX Xavier の XNUMX 倍の TOPS 数です。

NVIDIA Jetson AGX ORIN マザーボード

また、内部には 2 つの M.4 スロットがあります。4 GB eMMC を超える追加ストレージ用の PCIe Gen 64×4 Key M と、ワイヤレス接続用の Gen 1×10 Key E です。ただし、45 ギガビット RJ40 コネクタがあるため、オンライン接続は問題ありません。さらに、2 ピン ヘッダー (UART、SPI、I2S、I12C、CAN、PWM、DMIC、GPIO 用)、10 ピン オートメーション ヘッダー、10 ピン オーディオ パネル ヘッダー、4 ピン JTAG ヘッダー、2 ピン ファン ヘッダー、16 ピン RTC バッテリ バックアップ コネクタ、および CSI カメラ用の 2 レーン MIPI CSI-XNUMX コネクタがあります。

外部接続も不足していません。USB ポートは 3.2 つあり、USB-A 2 Gen 3.2 ポートが 1 つ、USB-A 3.2 Gen 2 ポートが 20 つ、USB-C 60 Gen XNUMX ポートが XNUMX つあります。XNUMX つの USB-C ポートのうち XNUMX つはフラッシュとデータ転送に最大 XNUMX Gbps の速度を供給でき、もう XNUMX つは XNUMXW 電源専用です。追加の USB-C ポートが必要な場合は、DC 電源ジャックを介して追加の電源を接続できます。ただし、システムには USB-C 電源のみが付属しています。また、クイック ストレージ オプション用のマイクロ SD カード スロットと、シリアル デバッグ ポートとして機能するマイクロ USB-B ポートもあります。

NVIDIA Jetson AGX ORIN 外部 PCIe スロット

磁気カバーの下には、外部 PCIe Gen 4×16 スロットが隠れています。さらに、外部 PCIe スロットは最大 PCIe 4×8 接続をサポートします。GPU に内部電源を供給する方法がないため、このスロットは高速 NIC などに最適です。専用のディスプレイ オプションとして、Orin には DisplayPort 1.4 があります。

Jetson AGX Xavier と Jetson AGX Orin の比較

機能 Jetson AGX ザビエル 64GB Jetson AGX Orin 64GB 開発キット
AIパフォーマンス 32トップス 275トップス
GPU 512 Tensor コアを備えた 64 コア NVIDIA Volta GPU 2048 個の Tensor コアを搭載した 64 コアの NVIDIA Ampere GPU
GPU 最大周波数 指定されていない 1.3GHz
CPU 8 コア NVIDIA Carmel Arm v8.2 64 ビット CPU、8MB L2 + 4MB L3 12 コア Arm Cortex-A78AE v8.2 64 ビット CPU、3MB L2 + 6MB L3
CPU 最大周波数 2.2GHz 2.2GHz
DLアクセラレータ 2x NVDLA v1 指定されていない
DLA 最大頻度 1.4GHz 指定されていない
ビジョンアクセラレータ 2xポリビニルアルコール 1x PVA v2
メモリ 64GB LPDDR4x、136.5GB/秒 64GB LPDDR5、204.8GB/秒
Storage 32GB eMMC 5.1、産業用バージョンでは64GBが利用可能 指定されていない
ビデオエンコード 4x 4K60 (H.265)、8x 4K30 (H.265)、16x 1080p60 (H.265)、32x 1080p30 (H.265) 指定されていない
ビデオデコード 2x 8K30 (H.265)、6x 4K60 (H.265)、12x 4K30 (H.265)、26x 1080p60 (H.265)、52x 1080p30 (H.265) 指定されていない
CSIカメラ 最大 6 台のカメラ (仮想チャネル経由で 36 台)、16 レーン MIPI CSI-2、8 レーン SLVS-EC、D-PHY 1.2 (最大 40 Gbps)、C-PHY 1.1 (最大 62 Gbps) 指定されていない
PCIe 1×8、1×4、1×2、2×1 (PCIe Gen4、ルート ポートとエンドポイント) x16 PCIe Gen8 をサポートする x4 PCIe スロット、x2 PCIe Gen4 を備えた M.4 Key M スロット、x2 PCIe Gen1 を備えた M.4 Key E スロット
USB 3x USB 3.2 Gen2 (10 Gbps)、4x USB 2.0 電源用 USB-C (15-60W)、フラッシュおよびプログラミング用シングル USB-C、シリアル デバッグ用 Micro B、USB 2 Gen3.2 (USB Type-C) x 2、USB 2 Gen3.2 (USB Type-A) x 2、USB 2 Gen3.2 (USB Type-A) x 1、USB 2.0 (USB Micro-B)
ネットワーキング 1xGbE 最大45 GbEのRJ10コネクタ
ディスプレイ 3 マルチモード DP 1.4/eDP 1.4/HDMI 2.0 1x DisplayPort 1.4a (+MST) コネクタ
その他のI / O 5x UART、3x SPI、4x I2S、8x I2C、2x CAN、PWM、DMIC、GPIO 40 ピン ヘッダー (UART、SPI、I2S、I2C、CAN、PWM、DMIC、GPIO)、12 ピン オートメーション ヘッダー、10 ピン オーディオ パネル ヘッダー、10 ピン JTAG ヘッダー、4 ピン ファン ヘッダー、2 ピン RTC バッテリ バックアップ コネクタ、microSD スロット、DC 電源ジャック、電源、強制回復、リセット ボタン
出力 10-30W 15~60W(USB-C経由)

AI側/NVIDIA SDKのセットアップ

大規模言語モデル (LLM) は、ChatGPT や Ollama などの大量のデータでトレーニングされた AI です。このような小さなフットプリントでは、ローカルのプライベート AI モデルを実行できるとは信じがたいことです。現在、Intel、AMD、Snapdragon から、専用の NPU を搭載した「AI PC」ラップトップが市場に登場しています。Jetson プラットフォームと同様に、これらのデバイスは、追加の AI アクセラレーション機能を備えたダイ上で専用のシリコンを実行します。概念的には、これらのコンポーネントは人間の脳と同様に機能するように設計されており (NPU の「ニューラル」の由来)、大量のデータを同時に処理できます。NPU が組み込まれると、CPU と GPU が解放されて他のタスクを処理できるため、電力と処理の両面ではるかに効率的なコンピューターになります。

しかし、Intel の Lunar Lake が生み出す 40 TOPS や AMD の 50 TOPS プラットフォームは、Jetson Orin Devkit の GPU と CPU を組み合わせたパワー (宣伝されている 275 TOPS) ほど優れていません。オフィスや自宅/ホームラボに AI をローカルで導入するには十分すぎるパワーです。AI をサポートするその他のコンポーネントには、システムが AI プロセスを実行できる速度を促進する 2 つの NVDLA vXNUMX ディープラーニング (DL) アクセラレータと、コンピューター ビジョンが画像を処理する速度を高速化する単一のビジョン アクセラレータがあります。

AI を実行するためのシステムのセットアップは、NVIDIA の多数のガイドによって効率化されています。開始するには、Jetson に Ubuntu をフラッシュしてから、次の 6 つの手順に従う必要があります。

ステップ1: NVIDIA SDKマネージャーをインストールする

詳しい手順とダウンロードはNVIDIA SDKサイトから入手できます。このプロセスには無料の開発者アカウントが必要です。

ステップ2: UbuntuにインストールされたNVIDIA SDKマネージャーを開く

ステップ3: 開発環境

このステップでは、すべての準備が整っていることを確認します。製品、システム構成、SDK バージョン、追加の SDK を確認します。私たちのセットアップでは、Jetson AGX Orin 開発キット、Ubuntu 22.04、JetPack 6.0、Deep Stream 7.0 を使用しました。

ステップ4: 詳細とライセンス

このステップはインストール画面として機能し、すべてのホスト コンポーネントとターゲット コンポーネントがダウンロードされ、インストールされていることを確認します。また、適切なダウンロード場所を選択する場所でもあります。ホスト システムには 15 GB のストレージが必要であり、ターゲット システムには 17 GB のストレージが必要です。

ステップ 5: セットアッププロセス

この手順は、セットアップを完了するための確認ウィンドウとして機能します。ここでリカバリ モードを選択し、手動または自動の強制リカバリ モードを選択します。自動は、システムがフラッシュされて実行されている場合に使用します。ここから、IP アドレスを設定/確認し、ユーザー名とパスワードを追加し、OEM 構成とターゲット ストレージ デバイスを選択できます。すべて設定したら、[フラッシュ] オプションをクリックできます。

ステップ6: 要約の最終決定

最後に、このステップでシステムが実行されます。その後、コードを実行できるようになります。

jetson-containers run --name ollama $(autotag ollama)

最初のコード行を実行すると、 オラマ LLM。Ollama は、LLM のローカル セットアップと開発をシンプルかつ簡単にし、コンテナーの内側でも外側でもセットアップできる人気のプラットフォームです。これには、事前に量子化された重みの組み込みモデル ライブラリが含まれており、自動的にダウンロードされ、llama.cpp を使用して推論としてバックグラウンドで実行されます。Ollama コンテナーは CUDA サポートでコンパイルされているため、Jetson AGX Orin での使用に最適です。次に、コードを実行します。

docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

その後、ポート 8080 のデバイス IP または DNS アドレスで Open Web User Interface (OWUI) にアクセスできるようになります。これはチャットボットとして機能します。OWUI は Ollama サーバーの API へのプラグインとして機能しますが、OpenAI の ChatGPT、Meta の Llama-3、または Microsoft の Phi-3 Mini をプラグインとして使用することもできます。

電力予算が非常に低いため、大規模なモデルの最初のトークンまでの時間は著しく遅くなりますが、プラットフォームはロードされると許容できるパフォーマンスを提供できます。

まとめ

Jetson AGX Orin 開発キットは、コンパクトなフォームファクターで優れたパフォーマンスを提供します。AI PC ソリューションの重要性が高まるにつれて、特に新しい CPU リリースに統合された NPU の TOPS 制限を考慮すると、Jetson プラットフォームが際立っています。Jetson AGX Orin は、特に ARM ネイティブ アプリケーションを必要とする開発者にとって、モデルの検証と改良に役立つ堅牢な足がかりを提供します。

これは開発キットですが、その使いやすさと十分なパワーにより、AI の旅に乗り出す企業にとって優れた出発点となります。Jetson プラットフォームは、洗練されたデザイン、極めて優れた電力効率、275 TOPS の AI パフォーマンスを実現できる、小型フォーム ファクター AI ソリューションの大きな可能性を示しています。この組み合わせにより、Jetson プラットフォームは、はるかに大型のラックマウント型 AI サーバーに匹敵するようになります。

NVIDIA の包括的なガイドは、さまざまな AI モデルのフラッシュと展開のプロセスを簡素化します。Generative AI はパズルの 1 つのピースにすぎません。AI の開発と展開の準備が整った企業にとって、Jetson AGX Orin 開発キットは、電力効率、小さなフットプリント、優れた AI パフォーマンスの完璧な組み合わせを提供し、AI テクノロジーの調査と実装に最適な選択肢となります。

Jetson AGX Orin 開発キット

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード