홈페이지 EnterpriseAI NVIDIA Jetson AGX Orin 재검토: 작은 패키지, 대규모 언어 모델

NVIDIA Jetson AGX Orin 재검토: 작은 패키지, 대규모 언어 모델

by 콜린 발저

Jetson AGX Orin을 다시 방문하여 저전력 장치에서 Chat-GPT 유형 LLM을 얻는 방법을 보여줍니다.

편집자 주: 우리는 새로운 팀원과 함께 앉아서 NVIDIA Jetson 플랫폼을 다시 살펴볼 기회를 얻었습니다. 작년에 Jetson의 최종 제품 버전인 Lenovo SE70에서 비전 모델을 실행한 기사를 확인하세요.

NVIDIA의 Jetson 플랫폼을 통해 개발자는 엣지 AI 개발에 특별히 맞춤화된 AI 옵션을 탐색할 수 있습니다. 이러한 시스템은 한 손에 쥘 수 있는 패키지로 GPU 지원 서버 성능을 제공합니다. 자신만의 로컬 LLM을 갖는 것이 얼마나 쉬운지 확인할 수 있도록 Jetson AGX Orin 개발 키트를 제공한 NVIDIA에 큰 감사를 드립니다.

엔비디아 젯슨 AGX ORINJetson AGX Orin DevKit은 폭과 길이가 11cm(약 4.3인치), 높이가 7.2cm(약 2.8인치)에 불과한 소형 폼 팩터 디자인으로 제공됩니다. Jetson AGX Orin 개발 키트 내부에는 2048개의 Tensor 코어와 64GHz의 최대 주파수를 갖춘 1.3코어 NVIDIA Ampere 아키텍처 GPU가 있습니다. 또한 12MB L78 캐시, 8.2MB L64 캐시 및 최대 주파수 3GHz를 갖춘 Arm Cortex CPU 2코어 A6AE v3 2.20비트 CPU도 있습니다.

NVIDIA Jetson AGX ORIN 전면

64GB/s 속도의 5GB LPDDR204.8 통합 메모리와 결합된 이 두 가지 전원 구성 요소는 결합되어 이 소형 시스템의 가장 인상적인 업적을 만들어냅니다. 소형 GPU 및 DLA의 275GB 모델에서 64 TOPS입니다. 이는 TOPS 수가 8.6개에 불과했던 NVIDIA의 이전 모델인 Jetson AGX Xavier의 TOPS 수의 32배입니다.

NVIDIA Jetson AGX ORIN 마더보드

또한 후드 아래에는 두 개의 M.2 슬롯이 있습니다. 즉, 4GB eMMC 이상의 추가 스토리지를 위한 PCIe Gen 4×64 Key M과 무선 연결을 위한 Gen 4×1 Key E입니다. 하지만 10기가비트 RJ45 커넥터를 사용하면 온라인 연결은 문제가 되지 않습니다. 또한 40핀 헤더(UART, SPI, I2S, I2C, CAN, PWM, DMIC 및 GPIO용), 12핀 자동화 헤더, 10핀 오디오 패널 헤더, 10핀 JTAG 헤더, 4핀 팬 헤더, 2핀 RTC 배터리 백업 커넥터 및 CSI 카메라용 16레인 MIPI CSI-2 커넥터.

외부 연결도 부족하지 않습니다. 3.2개의 USB 포트가 있습니다: USB-A 2 Gen 3.2 포트 1개, USB-A 3.2 Gen 2 포트 20개, USB-C 60 Gen XNUMX 포트. 두 개의 USB-C 포트 중 하나는 플래시 및 데이터 전송을 위해 최대 XNUMXGbps 속도를 제공할 수 있고, 다른 하나는 XNUMXW 전원 공급 장치 전용입니다. 추가 USB-C 포트가 필요한 경우 DC 전원 잭을 통해 추가 전원 공급 장치를 연결할 수 있습니다. 그러나 시스템은 USB-C 전원 공급 장치로만 배송됩니다. 빠른 저장 옵션을 위한 마이크로 SD 카드 슬롯과 직렬 디버그 포트 역할을 하는 마이크로 USB-B 포트도 있습니다.

NVIDIA Jetson AGX ORIN 외부 PCIe 슬롯

자기 커버 아래에 외부 PCIe Gen 4×16 슬롯이 숨겨져 있습니다. 또한 외부 PCIe 슬롯은 최대 PCIe 4×8 연결을 지원합니다. 내부적으로 GPU에 전원을 공급할 수 있는 방법이 없으므로 슬롯은 고속 NIC와 같은 장치에 가장 적합합니다. 전용 디스플레이 옵션의 경우 Orin에는 DisplayPort 1.4가 있습니다.

젯슨 AGX 자비에르 vs. 젯슨 AGX 오린

특색 젯슨 AGX 자비에 64GB Jetson AGX Orin 64GB 개발 키트
AI 성능 32 상단 275 상단
GPU 512개의 Tensor 코어를 갖춘 64코어 NVIDIA Volta GPU 2048개의 Tensor 코어를 갖춘 64코어 NVIDIA Ampere GPU
GPU 최대 주파수 정보 없음 1.3GHz
CPU 8코어 NVIDIA Carmel Arm v8.2 64비트 CPU, 8MB L2 + 4MB L3 12코어 Arm Cortex-A78AE v8.2 64비트 CPU, 3MB L2 + 6MB L3
CPU 최대 주파수 2.2GHz 2.2GHz
DL 가속기 2x NVDLA v1 정보 없음
DLA 최대 주파수 1.4GHz 정보 없음
비전 가속기 2x PVA 1x PVA v2
메모리 64GB LPDDR4x, 136.5GB/초 64GB LPDDR5, 204.8GB/초
스토리지 32GB eMMC 5.1, 산업용 버전에서는 64GB 사용 가능 정보 없음
비디오 인코딩 4x 4K60(H.265), 8x 4K30(H.265), 16x 1080p60(H.265), 32x 1080p30(H.265) 정보 없음
비디오 디코딩 2x 8K30(H.265), 6x 4K60(H.265), 12x 4K30(H.265), 26x 1080p60(H.265), 52x 1080p30(H.265) 정보 없음
CSI 카메라 최대 6개 카메라(가상 채널을 통해 36개), 16레인 MIPI CSI-2, 8레인 SLVS-EC, D-PHY 1.2(최대 40Gbps), C-PHY 1.1(최대 62Gbps) 정보 없음
PCIe 1×8, 1×4, 1×2, 2×1(PCIe Gen4, 루트 포트 및 엔드포인트) x16 PCIe Gen8를 지원하는 x4 PCIe 슬롯, x2 PCIe Gen4가 있는 M.4 키 M 슬롯, x2 PCIe Gen1가 있는 M.4 키 E 슬롯
USB USB 3 Gen3.2(2Gbps) 10개, USB 4 2.0개 전원 공급 장치용 USB-C(15~60W), 플래시 및 프로그래밍용 단일 USB-C, 직렬 디버그용 마이크로 B, USB 2 Gen3.2(USB Type-C) 2개, USB 2 Gen3.2(USB Type-A) 2개, 2개 USB 3.2 Gen1(USB Type-A), USB 2.0(USB 마이크로-B)
네트워킹 1xGbE 최대 45GbE의 RJ10 커넥터
디스플레이 3 다중 모드 DP 1.4/eDP 1.4/HDMI 2.0 DisplayPort 1a(+MST) 커넥터 1.4개
기타 I / O 5x UART, 3x SPI, 4x I2S, 8x I2C, 2x CAN, PWM, DMIC, GPIO 40핀 헤더(UART, SPI, I2S, I2C, CAN, PWM, DMIC, GPIO), 12핀 자동화 헤더, 10핀 오디오 패널 헤더, 10핀 JTAG 헤더, 4핀 팬 헤더, 2핀 RTC 배터리 백업 커넥터, microSD 슬롯, DC 전원 잭, 전원, 강제 복구 및 재설정 버튼
출력 10 - 30W 15~60W(USB-C 사용)

AI Side/NVIDIA SDK 설정

LLM(대형 언어 모델)은 대량의 데이터에 대해 훈련된 ChatGPT 또는 Ollama와 같은 AI입니다. 이렇게 작은 공간에서 로컬 프라이빗 AI 모델을 실행할 수 있다고 믿기 어렵습니다. 현재 Intel, AMD, Snapdragon에서 전용 NPU를 탑재한 "AI PC" 노트북이 시장에 등장하고 있습니다. Jetson 플랫폼과 유사한 이러한 장치는 추가적인 AI 가속 기능을 갖춘 전용 실리콘을 다이에서 실행합니다. 개념적으로 이러한 구성 요소는 우리의 뇌(따라서 NPU의 "신경")와 유사하게 기능하도록 설계되었으며 대량의 데이터를 동시에 처리할 수 있습니다. NPU가 포함된다는 것은 CPU와 GPU가 다른 작업을 처리하는 데 자유롭게 사용된다는 의미이며, 이는 전력 및 처리 측면 모두에서 훨씬 더 효율적인 컴퓨터로 이어진다는 것을 의미합니다.

그러나 Intel의 Lunar Lake에서 생산된 40 TOPS 또는 AMD의 50 TOPS 플랫폼은 여전히 ​​Jetson Orin Devkits의 GPU와 CPU를 결합한 성능만큼 크지 않아 광고된 275 TOPS를 만듭니다. 사무실이나 집/홈랩에 로컬로 AI를 둘 수 있을 만큼 충분한 성능이 있습니다! AI를 지원하는 다른 구성 요소로는 시스템이 AI 프로세스를 수행할 수 있는 속도를 촉진하는 두 개의 NVDLA v2 딥 러닝(DL) 가속기가 있습니다. Computer Vision이 이미지를 처리할 수 있는 속도를 높이는 단일 Vision 가속기입니다.

AI를 실행하기 위한 시스템 설정은 NVIDIA의 수많은 가이드를 통해 간소화됩니다. 시작하려면 Ubuntu로 Jetson을 플래시한 후 다음 6단계를 수행해야 합니다.

1단계: NVIDIA SDK 관리자 설치

전체 지침과 다운로드는 NVIDIA SDK 사이트에서 제공됩니다.. 이 프로세스에는 무료 개발자 계정이 필요합니다.

2단계: Ubuntu에 설치된 NVIDIA SDK Manager 열기

3단계: 개발 환경

이 단계는 모든 오리가 한 줄에 있는지 확인하는 것입니다. 제품, 시스템 구성, SDK 버전, 추가 SDK를 확인하세요. 설정에는 Jetson AGX Orin Development Kit, Ubuntu 22.04, JetPack 6.0 및 Deep Stream 7.0을 사용했습니다.

4단계: 세부정보 및 라이선스

이 단계는 설치 화면 역할을 하며 모든 호스트 구성 요소와 대상 구성 요소가 다운로드되고 설치되었는지 확인합니다. 적절한 다운로드 위치를 선택하는 곳이기도 합니다. 호스트 시스템에는 15GB의 스토리지가 필요하고 대상 시스템에는 17GB의 스토리지가 필요합니다.

5단계: 설정 프로세스

이 단계는 설정을 완료하기 위한 확인 창 역할을 합니다. 여기에서는 복구 모드를 선택하여 수동 또는 자동 강제 복구 모드 중 하나를 선택합니다. 이는 이미 시스템을 플래시하고 실행했을 때 자동으로 수행됩니다. 여기에서 IP 주소를 설정/확인하고, 사용자 이름과 비밀번호를 추가하고, OEM 구성과 대상 저장 장치를 선택할 수 있습니다. 모든 설정이 완료되면 Flash 옵션을 클릭할 수 있습니다.

6단계: 요약 마무리

마지막으로 이 단계에서는 시스템이 실행됩니다. 그런 다음 코드를 실행할 수 있습니다.

jetson-containers run --name ollama $(autotag ollama)

첫 번째 코드 줄을 실행하면 올라마 LLM. Ollama는 LLM의 로컬 설정 및 개발을 간단하고 쉽게 만들고 컨테이너 내부 또는 외부에서도 설정할 수 있는 인기 있는 플랫폼입니다. 여기에는 사전 양자화된 가중치의 내장 모델 라이브러리가 포함되어 있으며 자동으로 다운로드되어 llama.cpp를 사용하여 추론으로 실행됩니다. Ollama 컨테이너는 CUDA 지원으로 컴파일되어 Jetson AGX Orin에서 사용하기에 완벽합니다. 그런 다음 코드를 실행하여:

docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

그런 다음 장치 IP 또는 포트 8080의 DNS 주소에서 OWUI(개방형 웹 사용자 인터페이스)에 액세스할 수 있으며 이는 챗봇으로 작동합니다. OWUI는 Ollama 서버의 API에 대한 플러그인 역할을 하지만 OpenAI의 ChatGPT, Meta의 Llama-3 또는 Microsoft의 Phi-3 Mini를 플러그인으로 사용할 수도 있습니다.

이러한 저전력 예산에서는 대규모 모델의 첫 번째 토큰을 만드는 데 걸리는 시간이 눈에 띄게 느리지만, 플랫폼은 일단 로드되면 여전히 허용 가능한 성능을 제공할 수 있습니다.

결론

Jetson AGX Orin 개발 키트는 소형 폼 팩터로 상당한 성능을 제공합니다. AI PC 솔루션의 관련성이 점점 높아짐에 따라 Jetson 플랫폼은 특히 새로운 CPU 릴리스에 통합된 NPU의 TOPS 제한을 고려할 때 두각을 나타냅니다. Jetson AGX Orin은 개발자, 특히 ARM 기반 애플리케이션이 필요한 개발자에게 강력한 디딤돌을 제공하여 모델 검증 및 개선을 돕습니다.

이는 개발 키트이지만 사용하기 쉽고 성능이 풍부하여 AI 여정을 시작하는 기업을 위한 훌륭한 출발점이 됩니다. Jetson 플랫폼은 우아하게 설계되고 전력 효율성이 매우 높으며 275 TOPS의 AI 성능을 제공할 수 있는 소형 폼 팩터 AI 솔루션의 엄청난 잠재력을 보여줍니다. 이러한 조합을 통해 Jetson 플랫폼은 훨씬 더 큰 랙 장착형 AI 서버와 비교할 수 있습니다.

NVIDIA의 포괄적인 가이드는 Generative AI가 퍼즐의 한 조각일 뿐이므로 다양한 AI 모델을 플래싱하고 배포하는 프로세스를 단순화합니다. AI를 개발하고 배포할 준비가 된 기업을 위해 Jetson AGX Orin 개발 키트는 전력 효율성, 작은 설치 공간, 뛰어난 AI 성능의 완벽한 조합을 제공하므로 AI 기술을 탐색하고 구현하는 데 이상적인 선택입니다.

Jetson AGX Orin 개발 키트

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드