A Meta revela o Llama 4, uma poderosa família de modelos de IA baseada em MoE que oferece maior eficiência, escalabilidade e desempenho multimodal.
A Meta apresentou sua mais recente inovação em IA, Llama 4, uma coleção de modelos que aprimoram as capacidades de inteligência multimodal. O Llama 4 é baseado na arquitetura Mixture-of-Experts (MoE), que oferece eficiência e desempenho excepcionais.
Compreendendo os modelos MoE e a esparsidade
Os modelos Mixture-of-Experts (MoE) diferem significativamente dos modelos densos tradicionais, onde o modelo inteiro processa cada entrada. Em modelos MoE, apenas um subconjunto dos parâmetros totais, chamados de “especialistas”, é ativado para cada entrada. Essa ativação seletiva depende das características da entrada, permitindo que o modelo aloque recursos dinamicamente e aumente a eficiência.
A esparsidade é um conceito essencial em modelos MoE, indicando a proporção de parâmetros inativos para uma entrada específica. Os modelos MoE podem reduzir significativamente os custos computacionais utilizando a esparsidade enquanto mantêm ou melhoram o desempenho.
Conheça a família Llama 4: Scout, Maverick e Behemoth
O conjunto Llama 4 compreende três modelos: Llama 4 Scout, Llama 4 Maverick e Llama 4 Behemoth. Cada modelo é projetado para atender a diferentes casos de uso e requisitos.
- O Llama 4 Scout é um modelo compacto com 17 bilhões de parâmetros ativos e 109 bilhões de parâmetros totais em 16 especialistas. Ele é otimizado para eficiência e pode ser executado em uma única GPU NVIDIA H100 (FP4 Quantized). O Scout ostenta uma impressionante janela de contexto de 10 milhões de tokens, tornando-o ideal para aplicativos que exigem compreensão de contexto longo.
- O Llama 4 Maverick é um modelo mais robusto com os mesmos 17 bilhões de parâmetros ativos, mas com 128 especialistas, totalizando 400 bilhões de parâmetros. O Maverick se destaca em compreensão multimodal, tarefas multilíngues e codificação, superando concorrentes como GPT-4o e Gemini 2.0 Flash.
- O Llama 4 Behemoth é o maior modelo do conjunto, com 288 bilhões de parâmetros ativos e quase 2 trilhões de parâmetros totais em 16 especialistas. Embora ainda em treinamento, o Behemoth já demonstrou desempenho de ponta em vários benchmarks, superando modelos como GPT-4.5 e Claude Sonnet 3.7.
Os benchmarks usados para avaliar os modelos Llama 4 abrangem uma variedade de tarefas, incluindo compreensão de linguagem (MMLU – Massive Multitask Language Understanding, GPQA – Google-Proof Question Answering), resolução de problemas matemáticos (MATH – Mathematical Problem-Solving, MathVista – um benchmark para resolução de problemas matemáticos em contextos visuais) e compreensão multimodal (MMMU – Massive Multimodal Multitask Understanding). Esses benchmarks padrão fornecem uma avaliação abrangente das capacidades dos modelos e ajudam a identificar áreas onde eles se destacam ou requerem mais melhorias.
O papel dos modelos de professores no Llama 4
Um modelo de professor é um modelo grande e pré-treinado que guia modelos menores, transferindo seu conhecimento e capacidades para eles por meio da destilação. No caso do Llama 4, o Behemoth atua como o modelo de professor, destilando seu conhecimento para Scout e Maverick. O processo de destilação envolve treinar os modelos menores para imitar o comportamento do modelo de professor, permitindo que eles aprendam com seus pontos fortes e fracos. Essa abordagem permite que os modelos menores alcancem um desempenho impressionante, sendo mais eficientes e escaláveis.
Implicações e direções futuras
O lançamento do Llama 4 marca um marco significativo no cenário da IA, com implicações de longo alcance para pesquisa, desenvolvimento e aplicações. Historicamente, os modelos Llama têm sido um catalisador para pesquisa downstream, inspirando vários estudos e inovações. Espera-se que o lançamento do Llama 4 continue essa tendência, permitindo que os pesquisadores desenvolvam e ajustem os modelos para enfrentar tarefas e desafios complexos.
Muitos modelos foram ajustados e construídos sobre os modelos Llama, demonstrando a versatilidade e o potencial da arquitetura Llama. O lançamento do Llama 4 provavelmente acelerará essa tendência, pois pesquisadores e desenvolvedores alavancam os modelos para criar aplicativos novos e inovadores. Isso é significativo porque o Llama 4 é um lançamento de modelo forte e permitirá uma ampla gama de atividades de pesquisa e desenvolvimento.
Vale a pena notar que os modelos Llama 4, semelhantes aos seus predecessores, não pensam. Portanto, os futuros lançamentos da série Llama 4 poderiam potencialmente ser pós-treinados para raciocínio, melhorando ainda mais seu desempenho.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed