Home EmpreendimentoAI Aceleradores Habana Gaudi2 AI superam NVIDIA H100 em modelos BridgeTower

Aceleradores Habana Gaudi2 AI superam NVIDIA H100 em modelos BridgeTower

by Haroldo Fritts
Intel Havana Gaudi2

No início deste ano, a Intel publicou resultados de desempenho entre a Intel Habana Gaudi2 e a líder de mercado de GPU NVIDIA que ilustraram o compromisso da Intel com a IA e provaram que a IA não é uma categoria que sirva para todos. Ao mesmo tempo, um desenvolvimento conjunto entre os pesquisadores de IA da Intel e a Microsoft Research criou o BridgeTower, um transformador multimodal pré-treinado que oferece tarefas de linguagem de visão de última geração. Hugging Face integrou este modelo em sua biblioteca de código aberto para aprendizado de máquina.

No início deste ano, a Intel publicou resultados de desempenho entre a Intel Habana Gaudi2 e a líder de mercado de GPU NVIDIA que ilustraram o compromisso da Intel com a IA e provaram que a IA não é uma categoria que sirva para todos. Ao mesmo tempo, um desenvolvimento conjunto entre os pesquisadores de IA da Intel e a Microsoft Research criou o BridgeTower, um transformador multimodal pré-treinado que oferece tarefas de linguagem de visão de última geração. Hugging Face integrou este modelo em sua biblioteca de código aberto para aprendizado de máquina.

Intel Havana Gaudi2

Cartão Mezanino Habana Gaudi2 (Crédito: Intel Corporation)

Hugging Face publicou os resultados do benchmark original em uma postagem de blog em seu site e atualizou os resultados do benchmark de desempenho de treinamento de IA para Habana Gaudi2 e GPU H100 da NVIDIA. De acordo com esses resultados de benchmark, Gaudi2 superou o H100 para obter o modelo BridgeTower do transformador multimodal, mas Gaudi2, usando Ótima Havana, alcançou desempenho x2.5 vezes melhor que o A100. Os resultados não apenas validaram o lugar de Gaudi2 no campo da IA, mas também no treinamento da Visão-Linguagem.

Optimum Habana é a interface entre as bibliotecas Transformers e Difusores e o processador Gaudi (HPU) do Habana. Ele fornece ferramentas que permitem fácil carregamento, treinamento e inferência de modelos em configurações de HPU único e múltiplo para várias tarefas downstream.

Plano de fundo da BridgeTower

Os modelos de linguagem de visão usam codificadores unimodais para adquirir representações de dados. Os dados são então combinados ou inseridos em um codificador cross-modal. BridgeTower se diferencia por suas camadas de ponte exclusivas, ligando as camadas superiores dos codificadores unimodais a todas as camadas do codificador cross-modal, permitindo uma combinação eficiente de dados visuais e textuais em diferentes níveis.

O BridgeTower, treinado em apenas 4 milhões de imagens, estabelece novos padrões de desempenho, oferecendo 78.73% de precisão no teste Visual Question Answering (VQAv2). Isso supera o melhor modelo anterior em 1.09%. Aumentando a escala, o modelo tem uma precisão ainda maior de 81.15%, superando modelos treinados em conjuntos de dados muito maiores.

Como modelo de linguagem de visão de primeira linha, o desempenho do BridgeTower se deve à sua capacidade de carregar dados rapidamente usando hardware especial. Esses métodos rápidos de carregamento de dados são benéficos para modelos de visão, que muitas vezes enfrentam desafios de carregamento de dados.

Informações sobre hardware

Os testes de benchmark atualizados foram baseados no hardware e software mais recentes da NVIDIA e Habana Labs. A GPU NVIDIA H100 Tensor Core é a GPU mais recente e mais rápida da INVIDIA, com um Transformer Engine para execuções especializadas e 80 GB de memória. Usando a terceira iteração da tecnologia Tensor Core, a GPU Nvidia A100 Tensor Core está amplamente disponível em provedores de nuvem, com 80 GB de memória para velocidade superior em relação à sua contraparte de 40 GB.

Habana Labs Habana Gaudi2 é o hardware de IA de segunda geração da Habana Labs que pode acomodar até 8 HPUs, cada uma com 96 GB de memória. É considerado um recurso fácil de usar e, combinado com o Optimum Habana, facilita a transferência de códigos baseados em Transformers para Gaudi.

Detalhes de comparação

O teste envolveu o ajuste fino de um modelo BridgeTower com 866 milhões de parâmetros e o treinamento em inglês usando diversas técnicas em diversos conjuntos de dados. A próxima etapa envolveu ajustes adicionais usando o conjunto de dados do New Yorker Caption Contest. Todas as plataformas usaram as mesmas configurações e processaram lotes de 48 amostras cada para obter resultados consistentes.

Um desafio em tais experimentos é o demorado carregamento de dados de imagem. Idealmente, os dados brutos devem ser enviados diretamente aos dispositivos para decodificação. O foco agora muda para a otimização desse processo de carregamento de dados.

Otimizando o carregamento de dados

Para um carregamento mais rápido de imagens na CPU, aumentar os subprocessos pode ser útil. Usando TrainingArguments do Transformers, o argumento dataloader_num_workers=N pode definir o número de subprocessos da CPU para carregamento de dados. A configuração padrão é 0, o que significa que os dados são carregados pelo processo principal, mas isso pode não ser eficiente. Aumentá-lo pode melhorar a velocidade, mas também aumentará o consumo de RAM. A configuração recomendada é o número de núcleos da CPU. No entanto, é melhor experimentar primeiro para determinar a configuração ideal.

Este benchmark teve três execuções distintas:

  • Uma execução de precisão mista em oito dispositivos, onde o carregamento de dados compartilha o mesmo processo com outras tarefas (dataloader_num_workers=0).
  • Uma execução semelhante, mas com um subprocesso dedicado para carregamento de dados (dataloader_num_workers=1).
  • A mesma configuração, mas com dois subprocessos dedicados (dataloader_num_workers=2).

Carregamento de dados acelerado por hardware com Optimum Habana

Para aumentar ainda mais a velocidade, mude as tarefas de carregamento de dados da CPU para dispositivos aceleradores, como HPUs no Gaudi2 ou GPUs no A100/H100, usando o pipeline de mídia do Habana. Em vez de processar imagens inteiramente na CPU, as imagens codificadas podem ser enviadas diretamente aos dispositivos para decodificação e aumento. Essa abordagem maximiza o poder de computação do dispositivo, mas pode aumentar o consumo de memória do dispositivo.

Dois métodos eficazes para aprimorar os fluxos de trabalho de treinamento com imagens são alocar mais recursos do carregador de dados e usar dispositivos aceleradores para processamento de imagens. Ao treinar modelos avançados de linguagem de visão como BridgeTower, essas otimizações tornam o Habana Gaudi2 com Optimum Habana substancialmente mais rápido do que seus equivalentes NVIDIA. Habana Gaudi2 é fácil de usar, sendo necessários apenas alguns argumentos de treinamento adicionais.

Envolva-se com a StorageReview 

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed