Home EnterpriseAI Een nieuwe kijk op de NVIDIA Jetson AGX Orin: klein pakket, grote taalmodellen

Een nieuwe kijk op de NVIDIA Jetson AGX Orin: klein pakket, grote taalmodellen

by Colin Balzer

We bekijken de Jetson AGX Orin opnieuw en laten zien hoe je een Chat-GPT Type LLM op het energiezuinige apparaat kunt krijgen.

Noot van de redactie: we kregen de kans om samen met een nieuw lid van ons team opnieuw in het NVIDIA Jetson-platform te duiken. Bekijk ons ​​artikel van vorig jaar waarin we een vision-model hebben uitgevoerd op een definitieve productversie van Jetson, de Lenovo SE70

Met het Jetson-platform van NVIDIA kunnen ontwikkelaars AI-opties verkennen die specifiek zijn afgestemd op edge AI-ontwikkeling. Deze systemen zorgen voor GPU-compatibele serverprestaties in een pakket dat u in één hand kunt houden. Hartelijk dank aan NVIDIA voor het geven van de Jetson AGX Orin Development Kit om uit te proberen en te zien hoe gemakkelijk het kan zijn om uw eigen lokale LLM te hebben.

NVIDIA Jetson AGX ORINDe Jetson AGX Orin DevKit wordt geleverd in een klein vormfactorontwerp, slechts 11 cm breed en lang en 4.3 cm (ongeveer 7.2 inch) hoog. Aan de binnenkant van de Jetson AGX Orin Dev Kit zit een 2.8-core NVIDIA Ampere-architectuur GPU met 2048 Tensor Cores en een maximale frequentie van 64 GHz. Er is ook een Arm Cortex CPU 1.3-core A12AE v78 8.2-bit CPU met 64 MB L3-cache, 2 MB L6-cache en een maximale frequentie van 3 GHz.

NVIDIA Jetson AGX ORIN voorkant

Deze twee voedingscomponenten, gekoppeld aan 64 GB LPDDR5 verenigd geheugen met snelheden van 204.8 GB/s, zorgen samen voor de meest indrukwekkende prestatie van deze kleine machine: 275 TOPS in modellen met 64 GB van de kleine GPU en DLA. Dat is 8.6 keer het aantal TOPS als NVIDIA's voorganger, de Jetson AGX Xavier, die slechts 32 TOPS leverde.

NVIDIA Jetson AGX ORIN-moederbord

Ook onder de motorkap bevinden zich twee M.2-slots: een PCIe Gen 4×4 Key M voor eventuele extra opslag buiten de 64GB eMMC, en een Gen 4×1 Key E voor draadloze verbindingen. Online connectiviteit is echter geen probleem, met een 10 gigabit RJ45-connector. Bovendien is er een 40-pins header (voor UART, SPI, I2S, I2C, CAN, PWM, DMIC en GPIO), een 12-pins automatiseringsheader, een 10-pins audiopaneelheader, een 10-pins JTAG-header, een 4-pins ventilatorheader, een 2-pins RTC-batterijback-upconnector en 16-baans MIPI CSI-2-connector voor CSI-camera's.

Er is ook geen tekort aan externe connectiviteit. Er zijn zes USB-poorten: twee USB-A 3.2 Gen 2-, twee USB-A 3.2 Gen 1- en USB-C 3.2 Gen 2-poorten. Van die twee USB-C-poorten kan er één tot 20 Gbps snelheden leveren voor flashen en gegevensoverdracht, en de andere is bestemd voor de 60W-voeding. Als je die extra USB-C-poort nodig hebt, is er een extra voedingsaansluiting via een gelijkstroomaansluiting. Het systeem wordt echter alleen verzonden met zijn USB-C-voeding. Er is ook een micro SD-kaartsleuf voor snelle opslag en een micro USB-B-poort die als seriële debug-poort dient.

NVIDIA Jetson AGX ORIN extern PCIe-slot

Verborgen onder een magnetisch deksel ligt het externe PCIe Gen 4×16-slot. Bovendien ondersteunt het externe PCIe-slot maximaal een PCIe 4×8-verbinding. Omdat er geen manier is om een ​​GPU intern van stroom te voorzien, is het slot het meest geschikt voor zoiets als een snelle NIC. Voor een speciale weergaveoptie heeft de Orin een DisplayPort 1.4.

Jetson AGX Xavier versus Jetson AGX Orin

Kenmerk Jetson AGX Xavier 64GB Jetson AGX Orin 64GB ontwikkelkit
AI-prestaties 32 TOPS 275 TOPS
GPU 512-core NVIDIA Volta GPU met 64 Tensor-kernen 2048-core NVIDIA Ampere GPU met 64 Tensor-kernen
GPU maximale frequentie Niet gespecificeerd 1.3GHz
CPU 8-core NVIDIA Carmel Arm v8.2 64-bit CPU, 8 MB L2 + 4 MB L3 12-core Arm Cortex-A78AE v8.2 64-bit CPU, 3 MB L2 + 6 MB L3
Maximale CPU-frequentie 2.2GHz 2.2GHz
DL-versneller 2x NVDLA v1 Niet gespecificeerd
DLA maximale frequentie 1.4GHz Niet gespecificeerd
Visieversneller 2x PVA 1x PVA v2
Geheugen 64 GB LPDDR4x, 136.5 GB/sec 64 GB LPDDR5, 204.8 GB/sec
Opbergen 32GB eMMC 5.1, 64GB beschikbaar in industriële versie Niet gespecificeerd
Video coderen 4x 4K60 (H.265), 8x 4K30 (H.265), 16x 1080p60 (H.265), 32x 1080p30 (H.265) Niet gespecificeerd
video Decode 2x 8K30 (H.265), 6x 4K60 (H.265), 12x 4K30 (H.265), 26x 1080p60 (H.265), 52x 1080p30 (H.265) Niet gespecificeerd
CSI-camera Maximaal 6 camera's (36 via virtuele kanalen), 16 rijstroken MIPI CSI-2, 8 rijstroken SLVS-EC, D-PHY 1.2 (tot 40 Gbps), C-PHY 1.1 (tot 62 Gbps) Niet gespecificeerd
PCIe 1×8, 1×4, 1×2, 2×1 (PCIe Gen4, rootpoort en eindpunt) x16 PCIe-sleuf met ondersteuning voor x8 PCIe Gen4, M.2 Key M-sleuf met x4 PCIe Gen4, M.2 Key E-sleuf met x1 PCIe Gen4
USB 3x USB 3.2 Gen2 (10 Gbps), 4x USB 2.0 USB-C voor voeding (15-60W), enkele USB-C voor flashen en programmeren, Micro B voor seriële debuggen, 2x USB 3.2 Gen2 (USB Type-C), 2x USB 3.2 Gen2 (USB Type-A), 2x USB 3.2 Gen1 (USB Type-A), USB 2.0 (USB Micro-B)
Netwerken 1x GbE RJ45-connector met maximaal 10 GbE
Display 3 multi-mode DP 1.4/eDP 1.4/HDMI 2.0 1x DisplayPort 1.4a (+MST)-connector
Andere I / O 5x UART, 3x SPI, 4x I2S, 8x I2C, 2x CAN, PWM, DMIC, GPIO's 40-pins header (UART, SPI, I2S, I2C, CAN, PWM, DMIC, GPIO), 12-pins automatiseringsheader, 10-pins audiopaneelheader, 10-pins JTAG-header, 4-pins ventilatorheader, 2-pins RTC-batterijback-upconnector, microSD-sleuf, DC-voedingsaansluiting, aan-uit-, Force Recovery- en Reset-knoppen
Power 10-30W 15-60W (via USB-C)

AI Side/NVIDIA SDK-installatie

Large Language Models (LLM’s) zijn AI’s, zoals ChatGPT of Ollama, die zijn getraind op grote hoeveelheden data. Op zo'n kleine footprint is het moeilijk te geloven dat je een lokaal, particulier AI-model zou kunnen runnen. Momenteel zien we ‘AI PC’-laptops op de markt verschijnen van Intel, AMD en Snapdragon met speciale NPU’s. Deze apparaten, vergelijkbaar met het Jetson-platform, gebruiken speciaal silicium op de chip, die extra AI-versnellingsfuncties hebben. Conceptueel gezien zijn deze componenten ontworpen om op dezelfde manier te functioneren als onze hersenen (vandaar de ‘neurale’ in NPU), en zorgen ze ervoor dat grote hoeveelheden gegevens tegelijkertijd kunnen worden verwerkt. De opname van NPU's betekent dat de CPU en GPU vrijkomen om andere taken te verwerken, wat leidt tot een veel efficiëntere computer, zowel qua vermogen als qua verwerking.

De 40 TOPS geproduceerd door Intel's Lunar Lake, of AMD's 50 TOPS-platform, zijn echter nog steeds niet zo groot als de gecombineerde kracht van de GPU en CPU van de Jetson Orin Devkits, wat neerkomt op een geadverteerde 275 TOPS. Er is meer dan genoeg kracht om lokaal een AI op uw kantoor of zelfs in uw huis/thuislab te hebben! Andere componenten die helpen bij AI zijn de twee NVDLA v2 Deep Learning (DL)-versnellers, die de snelheid vergemakkelijken waarmee het systeem AI-processen kan uitvoeren; en een enkele Vision-versneller, die de snelheid waarmee Computer Vision afbeeldingen kan verwerken, versnelt.

Het instellen van het systeem om AI uit te voeren wordt gestroomlijnd door de talrijke handleidingen van NVIDIA. Om te beginnen moet je ervoor zorgen dat je Jetson met Ubuntu flasht en vervolgens deze 6 stappen volgt:

Stap 1: Installeer NVIDIA SDK Manager

Volledige instructies en downloads zijn beschikbaar op de NVIDIA SDK-site. Voor dit proces is een gratis ontwikkelaarsaccount vereist.

Stap 2: Open NVIDIA SDK Manager geïnstalleerd op Ubuntu

Stap 3: Ontwikkelomgeving

Deze stap is bedoeld om te bevestigen dat je al je eenden op een rij hebt. Bevestig uw product, systeemconfiguraties, SDK-versie en aanvullende SDK's. Voor onze installatie hebben we de Jetson AGX Orin Development Kit, Ubuntu 22.04, JetPack 6.0 en Deep Stream 7.0 gebruikt.

Stap 4: Details en licenties

Deze stap dient als installatiescherm en zorgt ervoor dat alle hostcomponenten en doelcomponenten worden gedownload en geïnstalleerd. Dit is ook de plek om de juiste downloadlocatie te selecteren. Het hostsysteem heeft 15 GB opslagruimte nodig en het doelsysteem heeft 17 GB opslagruimte nodig.

Stap 5: Installatieproces

Deze stap dient als bevestigingsvenster om de installatie te voltooien. Hier selecteert u de herstelmodus, waarbij u kunt kiezen of het een handmatige of automatische geforceerde herstelmodus is, waarbij automatisch wordt gekozen voor wanneer het systeem al is geflasht en actief is. Vanaf hier kunt u uw IP-adres instellen/bevestigen, een gebruikersnaam en wachtwoord toevoegen, uw OEM-configuratie en het doelopslagapparaat kiezen. Zodra dat allemaal is ingesteld, kunt u op de Flash-optie klikken.

Stap 6: Afronding van de samenvatting

Ten slotte zal deze stap het systeem uitvoeren. Hierna kunt u de code uitvoeren:

jetson-containers run --name ollama $(autotag ollama)

Als u de eerste regel code uitvoert, wordt het Ollama LLM. Ollama is een populair platform dat de lokale installatie en ontwikkeling van LLM's eenvoudig en gemakkelijk maakt, en zelfs binnen of buiten de container kan worden opgezet. Het bevat een ingebouwde modelbibliotheek met vooraf gekwantiseerde gewichten en wordt automatisch gedownload en uitgevoerd met behulp van llama.cpp achter de schermen als gevolgtrekking. De Ollama container is samengesteld met CUDA ondersteuning, waardoor deze perfect te gebruiken is op de Jetson AGX Orin. Vervolgens door de code uit te voeren:

docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

U heeft dan toegang tot de Open Web User Interface (OWUI) op het IP- of DNS-adres van het apparaat op poort 8080, die zal functioneren als een chatbot. De OWUI dient als plug-in voor de API van de Ollama-server, maar kan ook OpenAI's ChatGPT, Meta's Llama-3 of Microsoft's Phi-3 Mini als plug-ins gebruiken.

Hoewel de tijd tot het eerste token voor grotere modellen met zo'n laag energiebudget opmerkelijk traag is, kan het platform nog steeds acceptabele prestaties leveren zodra het is geladen.

Conclusie

De Jetson AGX Orin Development Kit biedt aanzienlijke prestaties in een compacte vormfactor. Nu AI-pc-oplossingen steeds relevanter worden, valt het Jetson-platform op, vooral als we kijken naar de TOPS-beperkingen van NPU's die zijn geïntegreerd in nieuwe CPU-releases. De Jetson AGX Orin biedt een robuuste opstap voor ontwikkelaars, met name voor ontwikkelaars die ARM-native applicaties nodig hebben, en helpt bij modelvalidatie en verfijning.

Hoewel dit een ontwikkelingspakket is, maken het gebruiksgemak en de ruime kracht het een uitstekend startpunt voor bedrijven die aan hun AI-reis beginnen. Het Jetson-platform toont het enorme potentieel van AI-oplossingen met een kleine vormfactor: elegant ontworpen, uiterst energiezuinig en in staat om 275 TOPS aan AI-prestaties te leveren. Deze combinatie maakt het Jetson-platform vergelijkbaar met veel grotere, in een rack gemonteerde AI-servers.

De uitgebreide handleidingen van NVIDIA vereenvoudigen het proces van het flashen en implementeren van een verscheidenheid aan AI-modellen, waarbij generatieve AI slechts een stukje van de puzzel is. Voor bedrijven die klaar zijn om AI te ontwikkelen en in te zetten, biedt de Jetson AGX Orin Development Kit een perfecte mix van energie-efficiëntie, kleine footprint en uitstekende AI-prestaties, waardoor het een ideale keuze is voor het verkennen en implementeren van AI-technologieën.

Jetson AGX Orin-ontwikkelingskit

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed