Para validar as vantagens da DRAM em sistemas de IA, conduzimos uma série de testes usando oito módulos de memória Kingston KSM56R46BD4PMI-64HAI DDR5.
A DRAM do sistema desempenha um papel importante na IA, particularmente na inferência da CPU. À medida que as aplicações de IA se tornam mais complexas, a procura por soluções de memória mais rápidas e eficientes torna-se cada vez mais crítica. Queríamos analisar a importância da DRAM do sistema na IA, concentrando-nos na inferência da CPU e no papel vital da utilização de vários canais de memória.
Kingston KSM56R46BD4PMI-64HAI DDR5
A importância do sistema DRAM na IA
System DRAM é o hub central para dados em sistemas de IA. Os dados são armazenados temporariamente para acesso rápido pela CPU, permitindo rápido processamento de dados.
Isto é particularmente crucial em aplicações de IA, onde lidar com grandes conjuntos de dados de forma rápida e eficiente não é apenas uma vantagem, mas uma necessidade. Aqui está uma visão mais detalhada do papel multifacetado da DRAM do sistema no aprimoramento dos recursos de IA:
- Velocidade e eficiência: Os algoritmos de IA, especialmente em inferência, requerem memória de alta velocidade para processar grandes quantidades de dados. A DRAM do sistema fornece essa velocidade, reduzindo a latência e aumentando o desempenho geral do sistema.
- Capacidade: Os aplicativos modernos de IA exigem grandes capacidades de memória. DRAM de alta capacidade garante que conjuntos de dados maiores possam ser processados na memória, evitando o processo mais lento de busca de dados em dispositivos de armazenamento.
- Confiabilidade: Na IA, a integridade dos dados é fundamental. A DRAM do sistema, com seus recursos de correção de erros, garante que a corrupção de dados seja minimizada, o que é essencial em aplicações onde a precisão é crítica.
- Escalabilidade: À medida que os modelos de IA se tornam cada vez mais complexos, a capacidade de dimensionar os recursos de memória torna-se extremamente importante. A DRAM do sistema oferece a escalabilidade necessária para acomodar as crescentes demandas das aplicações de IA em evolução e seus crescentes requisitos de dados.
- Largura de banda: A maior largura de banda da DRAM do sistema permite taxas de transferência de dados mais rápidas, permitindo acesso mais rápido aos dados. Isto é especialmente benéfico para treinar redes neurais complexas e gerenciar tarefas de processamento de dados em grande escala.
Inferência de CPU e DRAM
Na inteligência artificial, a inferência de CPU – o processo de utilização de um modelo treinado para fazer previsões ou decisões – e o papel da DRAM são componentes críticos que influenciam significativamente a eficiência e a velocidade das aplicações de IA. Esta fase consome muita memória devido à necessidade de acessar e processar rapidamente grandes conjuntos de dados. É particularmente exigente na memória do sistema devido à natureza complexa e ao tamanho dos dados envolvidos.
A DRAM é fundamental na otimização da inferência de CPU para operações de IA por meio de vários aprimoramentos importantes. Primeiro, ele fornece a largura de banda necessária para atingir um alto rendimento de dados, o que é essencial para o rápido processamento de dados e tomada de decisões em inferência de CPU. Esse aumento na produtividade se traduz diretamente em um desempenho mais rápido em tarefas complexas.
Além disso, ao armazenar dados perto da CPU, a DRAM do sistema reduz significativamente o tempo de acesso aos dados, minimizando assim a latência geral de inferência. Essa proximidade é crucial para manter um sistema rápido e ágil. Por último, à medida que os dados são processados rapidamente e os tempos de acesso são reduzidos, a energia geral necessária para tarefas de inferência da CPU é notavelmente reduzida. Isto leva a operações mais eficientes em termos energéticos e garante um ambiente mais sustentável e económico para aplicações de IA.
O papel dos múltiplos canais de memória
A arquitetura da memória do sistema é um elemento essencial na definição do desempenho das aplicações de IA. Utilizar múltiplos canais de memória é como alargar uma estrada – facilita um maior fluxo de tráfego de dados simultaneamente, melhorando significativamente o desempenho geral do sistema. Veja como o emprego de vários canais pode otimizar as operações de IA:
- Largura de banda aumentada: Vários canais aumentam a largura de banda da memória. Isto é crucial para aplicações de IA, pois podem processar e analisar mais dados simultaneamente, levando a tempos de inferência mais rápidos.
- Processamento Paralelo: Com múltiplos canais, os dados podem ser processados em paralelo, acelerando significativamente os cálculos de IA que envolvem grandes conjuntos de dados.
- Gargalos reduzidos: Vários canais de memória ajudam a reduzir gargalos do sistema. A distribuição da carga de memória permite que cada canal opere com mais eficiência, melhorando o desempenho geral do sistema.
Dados de teste
Para validar as vantagens da DRAM em sistemas de IA, especialmente inferência de CPU, conduzimos uma série de testes usando oito módulos de memória Kingston KSM56R46BD4PMI-64HAI DDR5 em diversas configurações de canal.
KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80 bits PC5-4800 CL40 EC8 registrado 288 pinos DIMM | KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80 bits PC5-5600 CL46 EC8 registrado 288 pinos DIMM | |
Velocidade de transferência | 4800 MT / s | 5600 MT / s |
CL(DDI) | 40 Ciclos | 46 Ciclos |
Tempo de Ciclo de Linha (tRCmin) | 48ns(min) | 48ns(min) |
Tempo de comando de atualização para ativo/atualização (tRFCmin) | 295ns(min) | 295ns(min) |
Tempo ativo da linha | 32ns(min) | 32ns(min) |
Tempo de pré-carga da linha | 16ns(min) | 16ns(min) |
Classificação UL | 94 V - 0 | 94 V - 0 |
Temperatura de Operação | 0 C a +95 C | 0 C a +95 C |
Temperatura de armazenamento | -55 C para + 100 C | -55 C para + 100 C |
Para estabelecer uma linha de base, iniciamos benchmarks de CPU focados e testes Geekbench, avaliando os recursos isolados da CPU. Para sobrecarregar seriamente todo o sistema, incluindo memória e armazenamento, selecionamos o y-cruncher por suas rigorosas demandas. Esta abordagem permite-nos avaliar a coesão e a resistência de todo o sistema sob condições extremas, proporcionando uma imagem clara do desempenho e da estabilidade globais.
Em última análise, esses resultados fornecerão dados concretos sobre como a DRAM do sistema e o número de canais de memória impactam diretamente a velocidade computacional, a eficiência e o desempenho geral do sistema em aplicações de IA.
Geekbench 6
O primeiro é Geekbench 6, um benchmark de plataforma cruzada que mede o desempenho geral do sistema. Você pode encontrar comparações com qualquer sistema que desejar no Navegador Geekbench. Pontuações mais altas são melhores.
Geekbench 6 | Kingston DDR5 Canais 2 |
Kingston DDR5 Canais 4 |
Kingston DDR5 Canais 8 |
Referência de CPU: Único nucleo |
2,083 | 2,233 | 2,317 |
Referência de CPU: Multi-Core |
14,404 | 18,561 | 19,752 |
Os resultados do Geekbench 6 para Kingston DDR5 mostram uma gama de variações ao comparar configurações de 2, 4 e 8 canais. Nos testes de núcleo único, as pontuações aumentam modestamente, mas de forma consistente, de 2,083 com dois canais para 2,317 com oito canais, indicando maior eficiência e rendimento para operações principais individuais à medida que o número de canais aumenta. No entanto, a melhoria de desempenho mais dramática é observada em testes multi-core, onde as pontuações saltam de 14,404 com dois canais para substanciais 19,752 com oito canais.
triturador de y
y-cruncher, um programa multithread e escalável, pode calcular Pi e outras constantes matemáticas até trilhões de dígitos. Desde o seu lançamento em 2009, o y-cruncher se tornou um aplicativo popular de benchmarking e testes de estresse para overclockers e entusiastas de hardware. Mais rápido é melhor neste teste.
triturador de y (Tempo total de cálculo) |
Kingston DDR5 Canais 2 |
Kingston DDR5 Canais 4 |
Kingston DDR5 Canais 8 |
1 bilhão de dígitos | 18.117 segundos | 10.856 segundos | 7.552 segundos |
2.5 bilhão de dígitos | 51.412 segundos | 31.861 segundos | 20.981 segundos |
5 bilhão de dígitos | 110.728 segundos | 64.609 segundos | 46.304 segundos |
10 bilhão de dígitos | 240.666 segundos | 138.402 segundos | 103.216 segundos |
25 bilhões de dígitos | 693.835 segundos | 396.997 segundos | N/D |
O benchmark y-cruncher em 2, 4 e 8 canais demonstra uma melhoria clara e consistente na velocidade computacional à medida que o número de canais aumenta. Para calcular 1 bilhão de dígitos de Pi, o tempo total de cálculo diminui significativamente de 18.117 segundos com dois canais para apenas 7.552 segundos com oito canais.
Esta tendência de redução do tempo de computação continua em todas as escalas testadas, com o tempo para calcular 25 bilhões de dígitos caindo de 693.835 segundos para 396.997 segundos ao passar de 2 para 4 canais.
3DMark – Perfil da CPU
O teste de perfil de CPU no 3DMark mede especificamente o desempenho do processador em uma variedade de contagens de threads, oferecendo uma visão detalhada de como diferentes configurações de canais de RAM DDR5 afetam o gerenciamento e a eficiência da carga de trabalho da CPU. Este teste é benéfico para compreender as nuances de desempenho em operações com uso intensivo de memória e aplicativos multithread ao usar várias configurações de canais de RAM DDR5.
3DMark – Perfil de CPU – Pontuações | |||
Contagem de fios | Kingston DDR5 Canais 2 |
Kingston DDR5 Canais 4 |
Kingston DDR5 Canais 8 |
Tópicos Máximos | 15,822 | 15,547 | 15,457 |
Tópicos 16 | 10,632 | 9,515 | 10,367 |
Tópicos 8 | 4,957 | 6,019 | 5,053 |
Tópicos 4 | 3,165 | 3,366 | 3,323 |
Tópicos 2 | 1,726 | 1,765 | 1,781 |
rosca 1 | 907 | 911 | 884 |
As pontuações do perfil de CPU 3DMark para a RAM Kingston DDR5 mostram uma imagem um tanto complexa, indicando que o número ideal de canais pode variar dependendo da contagem de threads e da carga de trabalho específica.
Na contagem máxima de threads, as pontuações são mais altas com dois canais (15,822) e diminuem ligeiramente com mais canais, sugerindo que os canais adicionais não oferecem benefícios para tarefas altamente paralelas. No entanto, em oito threads, a configuração de 4 canais tem a pontuação mais alta (6,019), indicando um ponto ideal onde os canais adicionais melhoram o tratamento do paralelismo de nível médio. As pontuações são semelhantes em todas as configurações de canal com contagens de threads mais baixas (4, 2 e 1 thread).
Estes resultados sugerem que embora mais canais possam beneficiar certas operações multithread, o impacto varia de acordo com a natureza da tarefa e a arquitetura do sistema. Ou seja, mais nem sempre é melhor para todos os casos de uso.
Efeito do canal DRAM na inferência de IA
Todos os testes foram realizados em uma CPU Intel Xeon w9-3475X, utilizando a API Intel OpenVINO por meio do UL Labs Procyon Benchmark.
Apresentando uma variedade de mecanismos de inferência de IA de fornecedores de primeira linha, o UL Procyon AI Inference Benchmark atende a um amplo espectro de configurações e requisitos de hardware. A pontuação do benchmark fornece um resumo conveniente e padronizado do desempenho de inferência no dispositivo. Isso nos permite comparar e contrastar diversas configurações de hardware em situações do mundo real sem a necessidade de soluções internas.
Os resultados estão dentro da margem de erro no FP32, mas as coisas ficam interessantes quando você passa para o INT, observando as pontuações granulares em vez da pontuação geral.
Número maior, melhor na pontuação geral, número pequeno, melhor nos tempos.
O primeiro é o FP32 Precision
FP 32 | ||
Precisão | 8 Canal | 2 Canal |
Pontuação geral | 629 | 630 |
Tempo médio de inferência do MobileNet V3 | 0.81 | 0.77 |
Tempo médio de inferência do ResNet 50 | 1.96 | 1.82 |
Tempo médio de inferência do Inception V4 | 6.93 | 7.31 |
Tempo médio de inferência do DeepLab V3 | 6.27 | 6.17 |
Tempo médio de inferência do YOLO V3 | 12.99 | 13.99 |
Tempo médio de inferência REAL-ESRGAN | 280.59 | 282.45 |
A seguir está o FP16 Precision
FP 16 | ||
Precisão | 8 Canal | 2 Canal |
Pontuação geral | 645 | 603 |
Tempo médio de inferência do MobileNet V3 | 0.81 | 0.76 |
Tempo médio de inferência do ResNet 50 | 1.91 | 1.94 |
Tempo médio de inferência do Inception V4 | 7.11 | 7.27 |
Tempo médio de inferência do DeepLab V3 | 6.27 | 7.13 |
Tempo médio de inferência do YOLO V3 | 12.93 | 15.01 |
Tempo médio de inferência REAL-ESRGAN | 242.24 | 280.91 |
E finalmente INT
INT | ||
Precisão | 8 Canal | 2 Canal |
Pontuação geral | 1,033 | 1004 |
Tempo médio de inferência do MobileNet V3 | 0.71 | 0.73 |
Tempo médio de inferência do ResNet 50 | 1.48 | 1.48 |
Tempo médio de inferência do Inception V4 | 4.42 | 4.47 |
Tempo médio de inferência do DeepLab V3 | 4.33 | 4.99 |
Tempo médio de inferência do YOLO V3 | 5.15 | 5.12 |
Tempo médio de inferência REAL-ESRGAN | 122.40 | 123.57 |
Taxa de transferência e latência de DRAM
Primeiro, observando a latência da configuração DRAM de 2 e 8 canais. Criamos o perfil de toda a CPU e memória, mas nosso único foco foi a transição do cache da CPU para a DRAM. Como nossa CPU Xeon W9-3475X possui apenas 82.50 MB de cache L3, retiramos o gráfico no início dessa transição.
Tamanho do teste (KB) | Largura de banda de 2 canais |
Latência de 8 canais (ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
Aqui podemos ver que adicionar mais canais melhorou a latência por uma pequena margem.
Passando para a largura de banda nas instruções AVX512, podemos ver uma diferença um pouco mais dramática na largura de banda entre 2 canais e 8 canais. O Delta aqui é o desempenho atingido entre 2 e 8 canais.
Tamanho do teste (KB) AVX512 | Largura de banda de 2 canais (GB/s) | Largura de banda de 8 canais (GB/s) | Delta (diferença de GB/s) |
65,536 | 3,455.28 | 3,767.91 | -312.63 |
98,304 | 1,801.88 | 2,011.83 | -209.95 |
131,072 | 1,009.21 | 1,436.50 | -427.28 |
262,144 | 178.52 | 508.65 | -330.13 |
393,216 | 114.76 | 433.91 | -319.15 |
524,288 | 94.81 | 396.90 | -302.09 |
1,048,576 | 71.12 | 293.26 | -222.13 |
1,572,864 | 66.98 | 267.44 | -200.46 |
2,097,152 | 65.08 | 262.50 | -197.42 |
3,145,728 | 63.63 | 253.12 | -189.50 |
Conclusão
Em resumo, a DRAM do sistema é a base da arquitetura dos sistemas de IA, especialmente na inferência de CPU. Sua capacidade de fornecer memória extensa, confiável e de alta velocidade é indispensável. Além disso, o aproveitamento de vários canais de memória pode melhorar significativamente o desempenho dos aplicativos de IA, aumentando a largura de banda, permitindo o processamento paralelo e minimizando gargalos. À medida que a IA continua a evoluir, a otimização da DRAM do sistema continuará a ser um foco fundamental para garantir os mais altos níveis de desempenho e eficiência.
Imagem gerada por IA, solicitada por Jordan Ranous
Além disso, os dados de teste reforçam esta noção, demonstrando os benefícios tangíveis das configurações de memória melhoradas. À medida que ultrapassamos os limites da IA e do processamento de dados, o aprimoramento estratégico da memória do sistema será crucial para apoiar a próxima geração de inovação em IA e aplicações no mundo real.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed