NVIDIA GTC 2023 começou apresentando novos produtos, parceiros, inovações e software. Para se ter uma ideia da amplitude dos anúncios, a palestra durou 78 minutos. Quatro novas plataformas foram anunciadas, cada uma otimizada para uma carga de trabalho específica de inferência de IA generativa e software especializado.
NVIDIA GTC 2023 começou apresentando novos produtos, parceiros, inovações e software. Para se ter uma ideia da amplitude dos anúncios, a palestra durou 78 minutos. Quatro novas plataformas foram anunciadas, cada uma otimizada para uma carga de trabalho específica de inferência de IA generativa e software especializado.
As plataformas combinam a pilha completa de software de inferência da NVIDIA com os mais recentes processadores NVIDIA Ada, Hopper e Grace Hopper. Duas novas GPUs, a GPU NVIDIA L4 Tensor Core e a GPU H100 NVL, foram lançadas hoje.
NVIDIA L4 para vídeo AI oferece 120x mais desempenho de vídeo alimentado por IA do que as CPUs, combinado com eficiência energética 99% melhor. O L4 serve como uma GPU universal para praticamente qualquer carga de trabalho, oferecendo recursos aprimorados de decodificação e transcodificação de vídeo, streaming de vídeo, realidade aumentada, vídeo AI generativo e muito mais.
A GPU NVIDIA Ada Lovelace L4 Tensor Core oferece aceleração universal e eficiência energética para vídeo, IA, desktop virtualizado e aplicativos gráficos na empresa, na nuvem e na borda. Com a plataforma AI da NVIDIA e full-stack
Com essa abordagem, o L4 é otimizado para inferência em escala para uma ampla variedade de aplicativos de IA, incluindo recomendações, assistentes de avatar de IA baseados em voz, IA generativa, pesquisa visual e automação de contact center.
O L4 é o acelerador NVIDIA mais eficiente para uso convencional, e os servidores equipados com L4 oferecem desempenho de vídeo de IA até 120x superior e desempenho de IA 2.7x mais generativo em relação às soluções de CPU, além de desempenho gráfico 4x maior do que a geração de GPU anterior. O NVIDIA L4 é um fator de forma versátil, com baixo consumo de energia, slot único e baixo perfil, tornando-o ideal para grandes implantações e locais de borda.
A NVIDIA L40 para geração de imagens é otimizado para gráficos e geração de imagens 2D, vídeo e 3D habilitadas para IA. A plataforma L40 serve como o mecanismo do NVIDIA Omniverse, uma plataforma para criar e operar aplicativos metaversos no data center, oferecendo 7x mais desempenho de inferência para Stable Diffusion e 12x mais desempenho do Omniverse em relação à geração anterior.
A GPU NVIDIA L40 oferece computação visual de alto desempenho para o data center, com recursos gráficos, computacionais e de IA de última geração. Construído na arquitetura NVIDIA Ada Lovelace, o L40 aproveita o poder dos núcleos RT, Tensor e CUDA de última geração para oferecer visualização e desempenho de computação para cargas de trabalho de data center exigentes.
O L40 oferece rendimento aprimorado e rastreamento de raios simultâneos e recursos de sombreamento que melhoram o desempenho do rastreamento de raios e aceleram as renderizações para fluxos de trabalho de design e arquitetura de produtos, engenharia e construção. A GPU L40 oferece suporte de hardware para esparsidade estrutural e formato TF32 otimizado para ganhos de desempenho prontos para uso para treinamento mais rápido de modelos de IA e ciência de dados. Os recursos gráficos acelerados aprimorados por IA, incluindo DLSS, oferecem resolução aprimorada com melhor desempenho em aplicativos selecionados.
A grande memória GPU do L40 lida com aplicativos e cargas de trabalho com uso intensivo de memória, como ciência de dados, simulação, modelagem 3D e renderização com 48 GB de memória GDDR6 ultrarrápida. A memória é alocada para vários usuários com software vGPU para distribuir grandes cargas de trabalho entre equipes criativas, de ciência de dados e de design.
Projetado para operações de data center corporativo 24 horas por dia, 7 dias por semana com hardware e componentes com baixo consumo de energia, o NVIDIA L40 é otimizado para implantação em escala e oferece desempenho máximo para diversas cargas de trabalho de data center. O L40 inclui inicialização segura com a raiz da tecnologia de confiança, fornecendo uma camada adicional de segurança e é compatível com NEBS Nível 3 para atender aos padrões do data center.
NVIDIA H100 NVL para implantação de modelos de linguagem grande é ideal para implantar LLMs massivos como ChatGPT em escala. O novo H100 NVL vem com 94 GB de memória com aceleração Transformer Engine e oferece desempenho de inferência até 12 vezes mais rápido em GPT-3 em comparação com a geração anterior A100 em escala de data center.
O H100 NVL baseado em PCIe com ponte NVLink utiliza Transformer Engine, NVLink e memória HBM188 de 3 GB para oferecer desempenho e dimensionamento ideais entre data centers. O H100 NVL suporta modelos de linguagem grandes de até 175 bilhões de parâmetros. Os servidores equipados com GPUs H100 NVL aumentam o desempenho do modelo GPT-175B em até 12x em relação aos sistemas NVIDIA DGX A100, mantendo baixa latência em ambientes de data center com restrição de energia.
NVIDIA Grace Hopper para modelos de recomendação é ideal para modelos de recomendação de gráficos, bancos de dados vetoriais e redes neurais de gráficos. Com a conexão NVLink-C900C de 2 GB/s entre CPU e GPU, Grace Hopper pode fornecer transferências de dados e consultas 7x mais rápidas do que PCIe Gen 5.
O NVIDIA Grace Hopper Superchip é uma CPU acelerada inovadora projetada desde o início para aplicativos de IA de escala gigante e computação de alto desempenho (HPC). O superchip oferecerá desempenho até 10 vezes maior para aplicativos que executam terabytes de dados, permitindo que cientistas e pesquisadores alcancem soluções sem precedentes para os problemas mais complexos do mundo.
O NVIDIA Grace Hopper Superchip combina as arquiteturas Grace e Hopper usando NVIDIA NVLink-C2C para oferecer um modelo de memória coerente CPU+GPU para aplicações aceleradas de IA e HPC. O Grace Hopper inclui interface coerente de 900 gigabytes por segundo (GB/s), é 7x mais rápido que o PCIe Gen5 e oferece 30x mais largura de banda de memória agregada do sistema para GPU em comparação com NVIDIA DGX A100. Além de tudo isso, ele executa todas as pilhas e plataformas de software NVIDIA, incluindo NVIDIA HPC SDK, NVIDIA AI e NVIDIA Omniverse.
Modelos de sistema de recomendação modernos requerem quantidades substanciais de memória para armazenar tabelas de incorporação. As tabelas de incorporação contêm representações semânticas para itens e recursos dos usuários, que ajudam a fornecer melhores recomendações aos consumidores.
Geralmente, esses embeddings seguem uma distribuição de lei de potência para frequência de uso, pois alguns vetores de embedding são acessados com mais frequência do que outros. O NVIDIA Grace Hopper permite pipelines de sistema de recomendação de alto rendimento que
armazene os vetores de incorporação usados com mais frequência na memória HBM3 e os vetores de incorporação restantes na memória LPDDR5X de maior capacidade. A interconexão NVLink C2C fornece às GPUs Hopper acesso de alta largura de banda à sua memória LPDDR5X local. Ao mesmo tempo, o NVLink Switch System estende isso para fornecer às GPUs Hopper acesso de alta largura de banda a toda a memória LPDDR5X de todos os Grace Hopper Superchips na rede NVLink.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed