首頁 EnterpriseAI 重溫 NVIDIA Jetson AGX Orin:小封裝、大語言模型

重溫 NVIDIA Jetson AGX Orin:小封裝、大語言模型

by 科林·巴爾澤

我們重新審視 Jetson AGX Orin 並展示如何在低功耗裝置上獲得 Chat-GPT 類型 LLM。

編者註:我們有機會坐下來與團隊的新成員一起重新深入研究 NVIDIA Jetson 平台。 查看我們去年的文章,其中我們在 Jetson 的最終產品版本(聯想 SE70)上運行了視覺模型

透過 NVIDIA 的 Jetson 平台,開發人員能夠探索專為邊緣 AI 開發量身定制的 AI 選項。這些系統在您可以用一隻手握住的包中提供支援 GPU 的伺服器效能。非常感謝 NVIDIA 為我們提供了 Jetson AGX Orin 開發套件來試用並了解擁有自己的本地 LLM 是多麼容易。

NVIDIA Jetson AGX ORINJetson AGX Orin DevKit 採用小型設計,寬度和長度僅為 11 公分(約 4.3 英吋),高 7.2 公分(約 2.8 英吋)。 Jetson AGX Orin 開發套件內部搭載了 2048 核心 NVIDIA Ampere 架構 GPU,擁有 64 個 Tensor Core,最高頻率為 1.3GHz。還有Arm Cortex CPU 12核心A78AE v8.2 64位元CPU,具有3MB L2快取、6MB L3緩存,最高頻率為2.20GHz。

NVIDIA Jetson AGX ORIN 正面

這兩個電源組件,加上速度為 64GB/s 的 5GB LPDDR204.8 統一內存,共同創造了這款小型機器最令人印象深刻的壯舉:在配備小型 GPU 和 DLA 的 275GB 型號中達到 64 TOPS。這是 NVIDIA 前身 Jetson AGX Xavier 的 TOPS 數量的 8.6 倍,僅提供 32 TOPS。

NVIDIA Jetson AGX ORIN 主機板

引擎蓋下還有兩個 M.2 插槽:一個 PCIe Gen 4×4 Key M,用於 64GB eMMC 之外的任何附加存儲,以及一個 Gen 4×1 Key E,用於無線連接。不過,使用 10 GB RJ45 連接器,線上連線不是問題。另外還有一個 40 針接頭(用於 UART、SPI、I2S、I2C、CAN、PWM、DMIC 和 GPIO)、一個 12 針自動化接頭、一個 10 針音頻面板接頭、一個 10 針 JTAG 接頭、一個4 針風扇接頭、2 針RTC 電池備援連接器以及用於CSI 相機的16 通道MIPI CSI-2 連接器。

外部連接也不乏。有六個 USB 連接埠:兩個 USB-A 3.2 Gen 2、兩個 USB-A 3.2 Gen 1 和 USB-C 3.2 Gen 2 連接埠。在這兩個 USB-C 連接埠中,一個可為快閃記憶體和資料傳輸提供高達 20 Gbps 的速度,另一個專用於 60W 電源。如果您需要額外的 USB-C 端口,則可以透過直流電源插孔連接額外的電源。不過,該系統僅隨附 USB-C 電源供應器。還有一個用於快速儲存選項的微型 SD 卡插槽和一個用作串行偵錯連接埠的微型 USB-B 連接埠。

NVIDIA Jetson AGX ORIN 外部 PCIe 插槽

外部 PCIe Gen 4×16 插槽隱藏在磁性蓋下方。此外,外部 PCIe 插槽支援 PCIe 4×8 連線。由於無法在內部為 GPU 供電,因此此插槽最適合高速 NIC 等裝置。對於專用顯示選項,Orin 具有 DisplayPort 1.4。

Jetson AGX Xavier 與 Jetson AGX Orin

獨特之處 傑森 AGX 澤維爾 64GB Jetson AGX Orin 64GB 開發套件
人工智能性能 32 TOPS 275 TOPS
GPU 512 核 NVIDIA Volta GPU,具有 64 個張量核心 具有 2048 個張量核心的 64 核心 NVIDIA Ampere GPU
GPU 最大頻率 未標明 1.3GHz
中央處理器 8 核心 NVIDIA Carmel Arm v8.2 64 位元 CPU,8MB L2 + 4MB L3 12 核心 Arm Cortex-A78AE v8.2 64 位元 CPU,3MB L2 + 6MB L3
CPU最大頻率 2.2GHz 2.2GHz
深度學習加速器 2 個 NVDLA v1 未標明
DLA 最大頻率 1.4GHz 未標明
視覺加速器 2x 聚乙烯醇 1x 聚乙烯醇 v2
記憶體應用 64GB LPDDR4x,136.5GB/秒 64GB LPDDR5,204.8GB/秒
儲存應用 32GB eMMC 5.1,工業版提供64GB 未標明
視頻編碼 4x 4K60 (H.265)、8x 4K30 (H.265)、16x 1080p60 (H.265)、32x 1080p30 (H.265) 未標明
視頻解碼 2x 8K30 (H.265)、6x 4K60 (H.265)、12x 4K30 (H.265)、26x 1080p60 (H.265)、52x 1080p30 (H.265) 未標明
CSI攝影機 多達 6 個相機(36 個通過虛擬通道)、16 通道 MIPI CSI-2、8 通道 SLVS-EC、D-PHY 1.2(高達 40 Gbps)、C-PHY 1.1(高達 62 Gbps) 未標明
PCIe 1×8、1×4、1×2、2×1(PCIe Gen4、根埠和端點) x16 PCIe 插槽支援 x8 PCIe Gen4、M.2 Key M 插槽支援 x4 PCIe Gen4、M.2 Key E 插槽支援 x1 PCIe Gen4
USB 3 個 USB 3.2 Gen2 (10 Gbps)、4 個 USB 2.0 USB-C 用於供電(15-60W)、單一USB-C 用於刷新和編程、Micro B 用於串行調試、2x USB 3.2 Gen2 (USB Type-C)、2x USB 3.2 Gen2 (USB Type-A )、2x USB 3.2 Gen1(USB A 型)、USB 2.0(USB Micro-B)
網路相關 1x 千兆以太網 高達 45 GbE 的 RJ10 連接器
顯示屏 3 種多模式 DP 1.4/eDP 1.4/HDMI 2.0 1 個 DisplayPort 1.4a (+MST) 連接器
其他I / O 5 個 UART、3 個 SPI、4 個 I2S、8 個 I2C、2 個 CAN、PWM、DMIC、GPIO 40 針接頭(UART、SPI、I2S、I2C、CAN、PWM、DMIC、GPIO)、12 針自動化接頭、10 針音訊面板接頭、10 針 JTAG 接頭、4 針風扇接頭、2 針RTC 電池備援連接器、 microSD 插槽、直流電源插孔、電源、強制恢復和重設按鈕
電力 10 30W 15-60W(透過 USB-C)

AI 端/NVIDIA SDK 設定

大型語言模型 (LLM) 是經過大量資料訓練的人工智慧,例如 ChatGPT 或 Ollama。在如此小的佔地面積中,很難相信您能夠運行本地私有人工智慧模型。目前,我們看到市場上出現了專用 NPU 的英特爾、AMD 和 Snapdragon 的「AI PC」筆記型電腦。這些設備與 Jetson 平台類似,在晶片上運行專用晶片,具有額外的 AI 加速功能。從概念上講,這些組件的設計功能與我們的大腦類似(因此 NPU 中的「神經元」),並允許同時處理大量資料。 NPU 的加入意味著 CPU 和 GPU 可以被釋放來處理其他任務,從而使電腦在功耗和處理方面都更有效率。

然而,英特爾 Lunar Lake 產生的 40 TOPS 或 AMD 50 TOPS 平台仍然不如 Jetson Orin Devkits 的 GPU 和 CPU 的綜合能力,即宣傳的 275 TOPS。有足夠的能力在您的辦公室,甚至在您的房子/家庭實驗室中擁有人工智慧!其他輔助 AI 的組件包括兩個 NVDLA v2 深度學習 (DL) 加速器,可提高系統執行 AI 處理的速度;以及單一視覺加速器,可加快電腦視覺處理影像的速度。

NVIDIA 的眾多指南簡化了設定運行 AI 的系統的過程。首先,您必須確保使用 Ubuntu 刷新您的 Jetson,然後按照以下 6 個步驟操作:

第 1 步:安裝 NVIDIA SDK 管理器

完整的說明和下載將在 NVIDIA SDK 網站上提供。此過程需要一個免費的開發者帳戶。

步驟 2:開啟 Ubuntu 上安裝的 NVIDIA SDK Manager

第三步:開發環境

此步驟是為了確認您已將所有鴨子排成一列。確認您的產品、系統配置、SDK 版本和其他 SDK。在我們的設定中,我們使用了 Jetson AGX Orin 開發套件、Ubuntu 22.04、JetPack 6.0 和 Deep Stream 7.0。

第 4 步:詳細資訊和許可

此步驟可作為安裝螢幕,確保下載並安裝所有主機組件和目標組件。這也是選擇正確下載位置的地方。主機系統需要 15GB 儲存空間,目標系統需要 17GB 儲存空間。

第 5 步:設定過程

此步驟用作完成設定的確認視窗。在這裡您將選擇恢復模式,選擇是手動還是自動強制恢復模式,自動模式適用於系統已經刷新並運行的情況。從這裡,您可以設定/確認您的 IP 位址、新增使用者名稱和密碼、選擇您的 OEM 配置以及目標儲存裝置。一旦所有這些都設定完畢,您就可以點擊 Flash 選項。

第 6 步:總結最終確定

最後這一步驟將運行系統。之後,您將能夠運行程式碼:

jetson-containers run --name ollama $(autotag ollama)

運行第一行程式碼將啟動 奧拉馬 法學碩士。 Ollama 是一個受歡迎的平台,它使 LLM 的本機設定和開發變得簡單、容易,甚至可以在容器內部或外部進行設定。它包含一個內建的預量化權重模型庫,並將在幕後使用 llama.cpp 自動下載和​​運行作為推理。 Ollama 容器是在 CUDA 支援下編譯的,非常適合在 Jetson AGX Orin 上使用。然後透過運行程式碼:

docker run -it --rm --network=host --add-host=host.docker.internal:主機閘道 ghcr.io/open-webui/open-webui:main

然後,您將能夠在連接埠 8080 上的裝置 IP 或 DNS 位址上存取開放式 Web 使用者介面 (OWUI),這將充當聊天機器人。 OWUI 作為 Ollama 伺服器 API 的插件,但也可以使用 OpenAI 的 ChatGPT、Meta 的 Llama-3 或 Microsoft 的 Phi-3 Mini 作為插件。

雖然在如此低的功耗預算下,較大模型的首次令牌時間明顯較慢,但該平台在加載後仍然能夠提供可接受的效能。

結論

Jetson AGX Orin 開發套件以緊湊的外型提供卓越的性能。隨著 AI PC 解決方案變得越來越重要,Jetson 平台脫穎而出,尤其是考慮到整合到新 CPU 版本中的 NPU 的 TOPS 限制時。 Jetson AGX Orin 為開發人員(尤其是需要 ARM 原生應用程式的開發人員)提供了強大的墊腳石,有助於模型驗證和細化。

雖然這是一個開發套件,但其易用性和充足的功能使其成為企業踏上人工智慧之旅的絕佳起點。 Jetson 平台展示了小型 AI 解決方案的巨大潛力——設計優雅、極其節能,並且能夠提供 275 TOPS 的 AI 性能。這種組合使得 Jetson 平台可以與更大的機架式 AI 伺服器相媲美。

NVIDIA 的綜合指南簡化了刷新和部署各種 AI 模型的過程,而生成式 AI 只是其中的一小部分。對於準備開發和部署 AI 的企業來說,Jetson AGX Orin 開發套件完美融合了能源效率、佔用空間小和出色的 AI 性能,使其成為探索和實施 AI 技術的理想選擇。

Jetson AGX Orin 開發套件

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱