Revisitamos o Jetson AGX Orin e mostramos como obter um Chat-GPT Type LLM no dispositivo de baixo consumo de energia.
Nota do editor: tivemos a oportunidade de nos aprofundarmos novamente na plataforma NVIDIA Jetson com um novo membro de nossa equipe. Confira nosso artigo do ano passado, onde executamos um modelo de visão em uma versão final do produto Jetson, o Lenovo SE70
Com a plataforma Jetson da NVIDIA, os desenvolvedores podem explorar opções de IA especificamente adaptadas para o desenvolvimento de IA de ponta. Esses sistemas permitem desempenho de servidor habilitado para GPU em um pacote que você pode segurar com uma mão. Muito obrigado à NVIDIA por nos fornecer o kit de desenvolvimento Jetson AGX Orin para testar e ver como pode ser fácil ter seu próprio LLM local.
O Jetson AGX Orin DevKit vem em um design de formato pequeno, apenas 11 cm ou cerca de 4.3 pol. de largura e comprimento e 7.2 cm (cerca de 2.8 pol.) de altura. No interior do Jetson AGX Orin Dev Kit, está uma GPU de arquitetura NVIDIA Ampere de 2048 núcleos com 64 núcleos tensores e uma frequência máxima de 1.3 GHz. Há também uma CPU Arm Cortex de 12 núcleos A78AE v8.2 de 64 bits com 3 MB de cache L2, 6 MB de cache L3 e uma frequência máxima de 2.20 GHz.
Esses dois componentes de potência, juntamente com 64 GB de memória unificada LPDDR5 com velocidades de 204.8 GB/s, se combinam para criar o feito mais impressionante desta pequena máquina: 275 TOPS em modelos com 64 GB da pequena GPU e DLA. Isso é 8.6 vezes o número de TOPS do antecessor da NVIDIA, o Jetson AGX Xavier, que entregou apenas 32 TOPS.
Também sob o capô estão dois slots M.2: um PCIe Gen 4×4 Key M para qualquer armazenamento adicional além do eMMC de 64 GB e um Gen 4×1 Key E para conexões sem fio. A conectividade online não é um problema, com um conector RJ10 de 45 gigabit. Além disso, há um conector de 40 pinos (para UART, SPI, I2S, I2C, CAN, PWM, DMIC e GPIO), um conector de automação de 12 pinos, um conector de painel de áudio de 10 pinos, um conector JTAG de 10 pinos, um Conector de ventilador de 4 pinos, um conector de bateria reserva RTC de 2 pinos, bem como um conector MIPI CSI-16 de 2 vias para câmeras CSI.
Também não falta conectividade externa. Existem seis portas USB: duas portas USB-A 3.2 Gen 2, duas portas USB-A 3.2 Gen 1 e USB-C 3.2 Gen 2. Dessas duas portas USB-C, uma pode fornecer velocidades de até 20 Gbps para flashing e transferência de dados, e a outra é dedicada à fonte de alimentação de 60W. Se você precisar dessa porta USB-C extra, há uma conexão de fonte de alimentação adicional por meio de um conector de alimentação DC. Porém, o sistema só é enviado com sua fonte de alimentação USB-C. Há também um slot para cartão micro SD para uma opção de armazenamento rápido e uma porta micro USB-B para servir como porta de depuração serial.
Escondido sob uma tampa magnética, está o slot PCIe Gen 4×16 externo. Além disso, o slot PCIe externo suporta até uma conexão PCIe 4×8. Sem nenhuma maneira de alimentar internamente uma GPU, o slot é mais adequado para algo como uma NIC de alta velocidade. Para uma opção de exibição dedicada, o Orin possui um DisplayPort 1.4.
Jetson AGX Xavier vs.
Característica | Jetson AGX Xavier 64GB | Kit de desenvolvimento Jetson AGX Orin 64 GB |
---|---|---|
Desempenho de IA | 32 TOPS | 275 TOPS |
GPU | GPU NVIDIA Volta de 512 núcleos com 64 núcleos tensores | GPU NVIDIA Ampere de 2048 núcleos com 64 núcleos tensores |
Frequência máxima da GPU | Não especificado | 1.3GHz |
CPU | CPU NVIDIA Carmel Arm v8 de 8.2 bits de 64 núcleos, 8 MB L2 + 4 MB L3 | CPU Arm Cortex-A12AE v78 de 8.2 núcleos de 64 bits, 3 MB L2 + 6 MB L3 |
Frequência máxima da CPU | 2.2GHz | 2.2GHz |
Acelerador DL | 2x NVDLA v1 | Não especificado |
Frequência máxima do DLA | 1.4GHz | Não especificado |
Acelerador de visão | 2x PVA | 1xPVA v2 |
Memória | LPDDR64x de 4 GB, 136.5 GB/s | LPDDR64 de 5 GB, 204.8 GB/s |
Armazenamento | 32 GB eMMC 5.1, 64 GB disponíveis na versão industrial | Não especificado |
Codificação de Vídeo | 4x 4K60 (H.265), 8x 4K30 (H.265), 16x 1080p60 (H.265), 32x 1080p30 (H.265) | Não especificado |
Decode Vídeo | 2x 8K30 (H.265), 6x 4K60 (H.265), 12x 4K30 (H.265), 26x 1080p60 (H.265), 52x 1080p30 (H.265) | Não especificado |
Câmera CSI | Até 6 câmeras (36 via canais virtuais), 16 pistas MIPI CSI-2, 8 pistas SLVS-EC, D-PHY 1.2 (até 40 Gbps), C-PHY 1.1 (até 62 Gbps) | Não especificado |
PCIe | 1×8, 1×4, 1×2, 2×1 (PCIe Gen4, porta raiz e endpoint) | Slot PCIe x16 com suporte para PCIe Gen8 x4, slot M.2 Key M com PCIe Gen4 x4, slot Key E M.2 com PCIe Gen1 x4 |
USB | 3x USB 3.2 Gen2 (10 Gbps), 4x USB 2.0 | USB-C para fonte de alimentação (15-60 W), USB-C único para flash e programação, Micro B para depuração serial, 2x USB 3.2 Gen2 (USB tipo C), 2x USB 3.2 Gen2 (USB tipo A), 2x USB 3.2 Gen1 (USB Tipo A), USB 2.0 (USB Micro-B) |
Networking | 1x GbE | Conector RJ45 com até 10 GbE |
Ecrã | 3 multimodo DP 1.4/eDP 1.4/HDMI 2.0 | 1x conector DisplayPort 1.4a (+MST) |
Outras I / O | 5x UART, 3x SPI, 4x I2S, 8x I2C, 2x CAN, PWM, DMIC, GPIOs | Conector de 40 pinos (UART, SPI, I2S, I2C, CAN, PWM, DMIC, GPIO), conector de automação de 12 pinos, conector de painel de áudio de 10 pinos, conector JTAG de 10 pinos, conector de ventilador de 4 pinos, 2 pinos Conector de backup de bateria RTC, slot microSD, conector de alimentação DC, botões Power, Force Recovery e Reset |
Energia | 10-30W | 15-60 W (via USB-C) |
Configuração do AI Side/NVIDIA SDK
Large Language Models (LLMs) são IAs, como ChatGPT ou Ollama, que foram treinadas em grandes quantidades de dados. Em um espaço tão pequeno, é difícil acreditar que você seria capaz de executar um modelo de IA local e privado. Atualmente, estamos vendo laptops “AI PC” surgindo no mercado da Intel, AMD e Snapdragon com NPUs dedicados. Esses dispositivos, semelhantes à plataforma Jetson, executam silício dedicado na matriz, que possui recursos adicionais de aceleração de IA. Conceitualmente, esses componentes são projetados para funcionar de forma semelhante ao nosso cérebro (daí o “neural” em NPU) e permitir que grandes quantidades de dados sejam processadas simultaneamente. A inclusão de NPUs significa que a CPU e a GPU ficam liberadas para processar outras tarefas, resultando em um computador muito mais eficiente, tanto em termos de potência quanto de processamento.
No entanto, os 40 TOPS produzidos pelo Lunar Lake da Intel, ou a plataforma 50 TOPS da AMD ainda não são tão grandes quanto o poder combinado da GPU e CPU dos Jetson Orin Devkits, totalizando 275 TOPS anunciados. Há energia mais que suficiente para ter uma IA localmente no seu escritório, ou mesmo na sua casa/homelab! Outros componentes que auxiliam a IA são os dois aceleradores NVDLA v2 Deep Learning (DL), facilitando a velocidade com que o sistema é capaz de executar processos de IA; e um único acelerador Vision, que acelera a taxa com que a Visão Computacional é capaz de processar imagens.
A configuração do sistema para executar IA é simplificada pelos vários guias da NVIDIA. Para começar, você deve certificar-se de atualizar seu Jetson com Ubuntu e seguir estas 6 etapas:
Etapa 1: Instale o NVIDIA SDK Manager
Instruções completas e downloads estarão disponíveis no site NVIDIA SDK. Uma conta de desenvolvedor gratuita é necessária para este processo.
Etapa 2: Abra o NVIDIA SDK Manager instalado no Ubuntu
Etapa 3: Ambiente de Desenvolvimento
Esta etapa é para confirmar se você tem todos os patos seguidos. Confirme seu produto, configurações do sistema, versão do SDK e SDKs adicionais. Para nossa configuração, usamos o kit de desenvolvimento Jetson AGX Orin, Ubuntu 22.04, JetPack 6.0 e Deep Stream 7.0.
Etapa 4: detalhes e licenciamento
Esta etapa serve como uma tela de instalação, garantindo que todos os componentes do Host e de destino sejam baixados e instalados. Este também é o local para selecionar o local de download adequado. O sistema host requer 15 GB de armazenamento e o sistema de destino requer 17 GB de armazenamento.
Etapa 5: Processo de configuração
Esta etapa serve como uma janela de confirmação para finalizar a configuração. Aqui você selecionará o modo de recuperação, escolhendo se seria um modo de recuperação forçada manual ou automático, sendo automático para quando você já tiver o sistema atualizado e funcionando. A partir daqui, você pode configurar/confirmar seu endereço IP, adicionar um nome de usuário e senha, escolher sua configuração OEM e o dispositivo de armazenamento de destino. Depois que tudo isso estiver definido, você poderá clicar na opção Flash.
Etapa 6: Finalização do Resumo
Finalmente, esta etapa executará o sistema. Depois disso, você poderá executar o código:
jetson-containers run --name ollama $(autotag ollama)
A execução da primeira linha de código iniciará o Ollama LLM. Ollama é uma plataforma popular que torna a configuração e o desenvolvimento local de LLMs simples e fáceis, podendo até ser configurado dentro ou fora do contêiner. Ele inclui uma biblioteca de modelos integrada de pesos pré-quantizados e será automaticamente baixado e executado usando llama.cpp nos bastidores como uma inferência. O contêiner Ollama foi compilado com suporte CUDA, tornando-o perfeito para uso no Jetson AGX Orin. Então, executando o código:
docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
Você poderá então acessar a Open Web User Interface (OWUI) no endereço IP ou DNS do dispositivo na porta 8080, que funcionará como um chatbot. O OWUI serve como um plug-in para a API do servidor Ollama, mas também pode usar ChatGPT da OpenAI, Llama-3 da Meta ou Phi-3 Mini da Microsoft como plug-ins.
Embora com um orçamento de energia tão baixo, o tempo para o primeiro token para modelos maiores seja notavelmente lento, a plataforma ainda é capaz de fornecer um desempenho aceitável depois de carregada.
Conclusão
O kit de desenvolvimento Jetson AGX Orin oferece desempenho significativo em um formato compacto. À medida que as soluções AI PC se tornam cada vez mais relevantes, a plataforma Jetson se destaca, especialmente quando se consideram as limitações TOPS dos NPUs integrados em novos lançamentos de CPU. O Jetson AGX Orin fornece um trampolim robusto para desenvolvedores, especialmente aqueles que exigem aplicativos nativos ARM, auxiliando na validação e refinamento do modelo.
Embora este seja um kit de desenvolvimento, sua facilidade de uso e amplo poder o tornam um excelente ponto de partida para empresas que embarcam em sua jornada de IA. A plataforma Jetson mostra o imenso potencial das soluções de IA de formato pequeno – projetadas com elegância, extremamente eficientes em termos de energia e capazes de fornecer 275 TOPS de desempenho de IA. Essa combinação torna a plataforma Jetson comparável a servidores de IA montados em rack muito maiores.
Os guias abrangentes da NVIDIA simplificam o processo de atualização e implantação de uma variedade de modelos de IA, sendo a IA generativa apenas uma peça do quebra-cabeça. Para empresas prontas para desenvolver e implantar IA, o Jetson AGX Orin Development Kit oferece uma combinação perfeita de eficiência energética, tamanho reduzido e excelente desempenho de IA, tornando-o a escolha ideal para explorar e implementar tecnologias de IA.
Kit de desenvolvimento Jetson AGX Orin
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed