Análise do Dell PowerEdge R770: CPUs Intel Xeon 6, modularidade OCP DC-MHS, desempenho impressionante, flexibilidade e pronto para IA em um chassi 2U denso.
Os servidores Dell PowerEdge série R7x0 há muito tempo são a pedra angular dos data centers, renomados por sua qualidade de construção excepcional, design inteligente, desempenho, densidade e confiabilidade no versátil fator de forma 2U. Esses servidores evoluíram consistentemente para atender às demandas em constante mudança. Agora, com a introdução do Dell PowerEdge R770, a série dá um salto significativo à frente.
TO R770 estreia a nova família de processadores Xeon 6 da Intel, apresentando os processadores Xeon 6500 e 6700 P e E core. Ele marca a primeira adoção completa da Dell do padrão OCP Data Center Modular Hardware System (DC MHS) em sua linha de servidores mainstream. Juntas, essas duas mudanças prometem uma evolução significativa em capacidade e filosofia de design.
Atendendo às demandas dos modernos data centers
O lançamento do R770 acontece quando os data centers enfrentam uma pressão crescente. As cargas de trabalho estão cada vez mais diversas e exigentes. O crescimento implacável dos dados alimenta a necessidade de análises e bancos de dados robustos. Do treinamento de modelos complexos à implantação de inferência em tempo real, a inteligência artificial não é mais uma aplicação de nicho, mas um driver de negócios essencial que requer poder de computação substancial e aceleração especializada.
Simultaneamente, há um foco intenso na eficiência energética e na otimização do custo total de propriedade. Além disso, a indústria está cada vez mais buscando padrões abertos para promover a inovação, aprimorar a interoperabilidade e potencialmente reduzir o bloqueio de fornecedores. O R770, com suas novas opções de processador e adoção do OCP DC MHS, foi projetado para enfrentar esses desafios de frente.
Processadores Intel Xeon 6 P-Core
O processador R770 utiliza os processadores Intel Xeon série 6, incluindo as séries 6700 e 6500, incorporando os núcleos Performance e Efficiency construídos na plataforma Socket E2 (LGA4710-2). Para esta análise, focamos especificamente nos SKUs da série P.
A Intel constrói esses processadores usando um design baseado em blocos, combinando blocos de E/S com um ou dois blocos de computação. Isso permite escalabilidade dentro da série, com configurações que alcançam até 86 P-cores (XCC) usando dois blocos de computação, até 48 P-cores (HCC) ou 16 P-cores (LCC) com blocos de computação únicos.
Em comparação com os processadores Sapphire e Emerald Rapids de geração anterior, um diferencial importante para esses processadores é a disponibilidade universal de aceleradores integrados em todos os processadores Xeon 6. Isso inclui Intel QuickAssist Technology para criptografia e compressão, Intel Data Streaming Accelerator para movimentação de dados, Intel In-Memory Analytics Accelerator para aceleração de banco de dados e análise, e Intel Dynamic Load Balancer para eficiência de processamento de rede.
A memória e a largura de banda de E/S também veem atualizações substanciais. A série Xeon 6700/6500 P-core suporta memória DDR8 de 5 canais. Eles também abrem caminho para o Multiplexed Rank DIMM (MRDIMM), que oferece velocidades de até 8,800 MT/s. Na frente de E/S, esses processadores suportam PCIe 5.0 e CXL 2.0. Em configurações de soquete duplo, a plataforma pode oferecer até 88 pistas PCIe por soquete (totalizando 176 pistas).
E apesar da diferenciação P-core e E-core, a família Xeon 6 mantém a consistência em conjuntos de instruções, BIOS, drivers, suporte a SO/aplicativos e recursos RAS, simplificando a integração e o gerenciamento em diferentes tipos de implantação. As variantes P-core são voltadas para cargas de trabalho onde o desempenho por núcleo, aceleração de IA, alta largura de banda de memória e E/S substancial são primordiais; pense em bancos de dados exigentes, simulações de HPC, análises avançadas e uma ampla gama de aplicativos de IA.
Especificações do Dell PowerEdge R770
Especificação | Dell Power Edge R770 |
Subcontratante | Dois processadores Intel Xeon 6 com até 144 núcleos E ou 86 núcleos P por processador |
Memória | 32 slots DDR5 DIMM, suporta RDIMM 8 TB máx., velocidades de até 6400 MT/s, suporta apenas DIMMs DDR5 ECC registrados |
Controladores de estoque | Inicialização interna: Subsistema de armazenamento otimizado para inicialização (BOSS-N1 DC-MHS): HWRAID 1, 2 x SSDs M.2 NVMe ou placa M.2 Interposer (DC-MHS): 2 x SSDs M.2 NVMe ou USB, Controladores internos: PERC H965i frontal, PERC H975i frontal, PERC H365i frontal |
Baías dianteiras e traseiras |
|
Fontes de alimentação hot swap |
|
Opções de resfriamento | Resfriamento a ar e resfriamento direto por líquido (DLC é uma solução de rack e requer coletores de rack e uma unidade de distribuição de resfriamento (CDU) para operar) |
fãs | Ventiladores Silver de alto desempenho (HPR SLVR)/Ventiladores Gold de alto desempenho (HPR GOLD), até 6 ventiladores hot swappable |
Dimensões e Peso | Altura – 86.8 mm (3.42 polegadas), Largura – 482 mm (18.97 polegadas), Peso – 28.53 kg (62.89 libras), Profundidade (para configuração de E/S traseira) – 802.40 mm (31.59 polegadas) com moldura, 801.51 mm (31.56 polegadas) sem moldura, Profundidade (para configuração de E/S frontal) – 814.52 mm (32.07 polegadas) sem moldura |
Fator de Forma | Servidor de rack 2U |
Gerenciamento Integrado | iDRAC, iDRAC Direct, iDRAC RESTful API com Redfish, RACADM CLI, iDRAC Service Module (iSM), NativeEdge Endpoint, NativeEdge Orchestrator |
Moldura | Moldura de segurança opcional |
Segurança | Firmware assinado criptograficamente, Criptografia de dados em repouso (SEDs com gerenciamento de chaves local ou externo), Inicialização segura, Verificação de componentes protegidos (verificação de integridade de hardware), Raiz de confiança de silício, Bloqueio do sistema, Bloqueio do sistema (requer iDRAC10 Enterprise ou Datacenter), Detecção de intrusão de chassi, TPM 2.0 FIPS, certificação CC-TCG |
Opções de rede |
|
Opções de GPU | Até 6 x 75 W FHHL ou até 2 x 350 W DWFL |
Portas | Portas frontais: 1 porta USB 2.0 Tipo C, 1 porta USB 2.0 Tipo A (opcional), 1 Mini-DisplayPort (opcional), 1 porta serial DB9 (com configuração de E/S frontal), 1 porta Ethernet dedicada para gerenciamento iDRAC; Portas traseiras: 1 porta Ethernet dedicada para gerenciamento iDRAC, 1 porta VGA, 2 portas USB 3.1 Tipo A; Portas internas: 1 porta USB 3.1 Tipo A |
PCIe |
|
Sistemas Operacionais e Hipervisores | Servidor Canonical Ubuntu LTS, Microsoft Windows Server com Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware com vSphere |
Dell PowerEdge R770 adotando modularidade com OCP DC MHS
Fonte do Servidor/DC-MHS – OpenComputer
O Dell PowerEdge R770 apresenta avanços notáveis e flexibilidade em seu design físico e arquitetura de componentes, adotando o padrão Data Center Modular Hardware System (OCP DC MHS) do Open Compute Project.
Dando continuidade ao legado da série R7x0, o R770 oferece opções de configuração abrangentes para atender a diversas necessidades de implantação. Uma novidade significativa para esta linha é a escolha entre uma configuração de E/S traseira tradicional e uma configuração de E/S frontal Cold Aisle Accessible, fornecendo maior flexibilidade para diferentes layouts de data center e requisitos de manutenção. As opções de armazenamento são igualmente versáteis, variando de nós focados em computação com armazenamento local mínimo ou nenhum a configurações de alta densidade que suportam notáveis 40 unidades E3.S para cargas de trabalho centradas em armazenamento.
Para atender à crescente necessidade de computação acelerada, particularmente para IA e HPC, o R770 ostenta recursos de expansão robustos. Dependendo da configuração do chassi e do riser, o servidor pode acomodar até seis placas Gen 5 x16 Full-Height, Full-Length (FHFL) PCIe. Além disso, ele suporta a instalação de duas GPUs de largura dupla, tornando-o uma plataforma capaz para uma ampla gama de tarefas. A flexibilidade de rede é fornecida por meio de slots mezzanine OCP 3.0, suportando placas x8 ou x16 com base na configuração.
A Dell também implementou vários refinamentos de design visando melhorar a capacidade de manutenção e a confiabilidade. Um exemplo importante é a evolução da placa Boot Optimized Storage Solution (BOSS). Anteriormente conectado por cabos e integrado ao riser PCIe, o controlador BOSS no R770 agora é implementado como uma placa padronizada OCP que faz interface diretamente com a placa-mãe, eliminando a complexidade do cabeamento. Este novo controlador BOSS também apresenta unidades NVMe M.2 mais rápidas e incorpora dissipadores de calor para garantir temperaturas operacionais e desempenho ideais para os dispositivos de inicialização. Outro aprimoramento sutil, mas prático para os técnicos, é a mudança de jumpers tradicionais para interruptores DIP mais fáceis de usar para funções como limpar a NVRAM.
A mudança arquitetônica mais profunda é a adoção completa do padrão OCP DC MHS. A Dell começou a incorporar elementos OCP em gerações anteriores, notavelmente adotando slots de adaptador de rede OCP 3.0. O R770 leva isso muito mais longe. Os principais componentes agora aderem às especificações OCP, incluindo Host Processor Modules (HPM), comumente conhecidos como placa-mãe, que inclui peças como os slots riser, agora conectores M-XIO. O conector M-XIO fornece uma interface padronizada para placas riser, aumentando a flexibilidade e a capacidade de atualização. O iDRAC também é implementado como um OCP DC-SCM (Server Control Module).
Além disso, o R770 introduz o novo conector de energia PICPWR para conexões periféricas, como GPUs e backplanes. Este conector é uma adição significativa, simplificando o fornecimento de energia e incorporando monitoramento de energia em linha.
Essa integração profunda padroniza interfaces e fatores de forma em vários subsistemas. Enquanto a Dell enfatiza que os usuários devem aderir a componentes validados para compatibilidade e suporte garantidos, a padronização subjacente torna muitas partes inerentemente mais úteis ao usuário e potencialmente intercambiáveis entre sistemas compatíveis no futuro.
Gestão e iDRAC
O Dell PowerEdge R770 se baseia no já rico em recursos e amado iDRAC 9 com o iDRAC 10 de última geração, que aprimora a administração do sistema por meio da integração perfeita com o Data Center Secure Control Module (DC-SCM). Essa integração permite atualizações de firmware e gerenciamento de configuração simplificados, garantindo operações consistentes e escaláveis em todos os data centers. O iDRAC 10 também oferece suporte a recursos avançados de automação e monitoramento, capacitando os administradores de TI a gerenciar com eficiência implantações em larga escala sem comprometer o desempenho ou a confiabilidade.
A segurança é a base dos recursos de gerenciamento do R770, com a Dell implementando mecanismos robustos de pré-inicialização e verificação de inicialização. Aproveitando a tecnologia Root of Trust baseada em silício, o iDRAC 10 garante que todo o firmware, incluindo BIOS e iDRAC, seja verificado criptograficamente antes da execução. Essa medida de segurança imutável baseada em hardware protege contra adulteração de malware e ataques à cadeia de suprimentos, fornecendo uma base segura para as operações do sistema. Além disso, o R770 incorpora protocolos de inicialização seguros para quantização para mitigar ameaças criptográficas emergentes, solidificando ainda mais seu papel na proteção de infraestrutura crítica.
O compromisso da Dell com a segurança da cadeia de suprimentos é evidente no design do R770, que emprega um processo abrangente de autenticação de cadeia de confiança. Cada componente de hardware passa por uma verificação rigorosa usando assinaturas criptográficas incorporadas durante a fabricação. Esse processo garante que apenas firmware e componentes autorizados sejam utilizados, mitigando riscos associados a modificações não autorizadas ou peças falsificadas.
Blocos de construção de fábricas de IA
O R770 pode ser encomendado com muitas configurações de GPU e chassi, tornando-o uma plataforma versátil para uma ampla gama de cargas de trabalho de IA. Essa flexibilidade e seus recursos robustos de armazenamento e rede o tornam uma escolha atraente para organizações que implantam soluções de IA em Fábricas de IA. Fábricas de IA se referem à infraestrutura e às ferramentas necessárias para criar, treinar e implantar modelos de IA em escala. Essas fábricas são essenciais para o desenvolvimento de sistemas avançados, como veículos autônomos e robótica, pois fornecem o poder computacional e os pipelines de dados necessários para processar conjuntos de dados massivos de forma eficiente.
O desenvolvimento de veículos autônomos e sistemas robóticos requer dados de treinamento extensivos que refletem cenários do mundo real. O Cosmos NIM da NVIDIA é um avanço significativo neste campo, oferecendo aos desenvolvedores um poderoso kit de ferramentas para acelerar a criação e a implantação de sistemas de IA física como World Foundational Models.
Compreendendo os modelos de fundação mundial
Os modelos de fundação mundial (WFMs) são redes neurais sofisticadas que simulam ambientes do mundo real e preveem resultados precisos com base em várias entradas. Ao contrário dos modelos tradicionais de IA focados em tarefas específicas, os WFMs entendem a dinâmica do mundo físico, incluindo física e propriedades espaciais. Eles podem gerar vídeos a partir de prompts de texto, imagens ou outros dados de entrada, ao mesmo tempo em que representam com precisão o movimento, a força e as relações espaciais.
NVIDIA Cosmos NIMs: um trampolim para modelos fundamentais do mundo
Os Cosmos NIMs da NVIDIA são um passo crucial para alcançar os World Foundational Models. Eles permitem que organizações e laboratórios de IA gerem dados de treinamento sintéticos, dimensionando com eficiência os dados necessários para treinar esses modelos de IA. Implementamos o Cosmos Prever modelo, um modelo generalista que gera estados do mundo a partir de prompts de texto ou vídeo e sintetiza movimento contínuo prevendo quadros.
Estes são alguns resultados interessantes que conseguimos fazer com o Cosmos com apenas uma única imagem do nosso laboratório. Embora não seja perfeito, o que ele conseguiu fazer com apenas uma única imagem é muito impressionante.
A capacidade do R770 de oferecer suporte a GPUs de alto desempenho, como a NVIDIA H100, e seus recursos robustos de armazenamento e rede o tornam uma escolha atraente para organizações que buscam implantar soluções de IA.
Ao aproveitar os recursos do R770, as organizações podem treinar e implementar com eficiência modelos de IA como o Cosmos NIM, acelerando o desenvolvimento de veículos autônomos e sistemas robóticos. O desempenho e a escalabilidade do R770 o tornam uma plataforma ideal para lidar com grandes quantidades de dados necessárias para o treinamento de modelos de IA, e sua versatilidade permite que ele suporte uma ampla gama de cargas de trabalho de IA.
Armazenamento direto da GPU
GPU Direct Storage é uma tecnologia que permite a transferência direta de dados entre dispositivos de armazenamento e GPUs, ignorando a CPU e a memória do sistema. Na transferência de dados tradicional, os dados são lidos do armazenamento para a memória da CPU e então copiados para a memória da GPU. Esse processo envolve múltiplas cópias de dados, levando a maior latência e desempenho reduzido. A CPU atua como um gargalo, precisando lidar com a transferência de dados entre o armazenamento e a GPU. O GDS elimina esse gargalo permitindo diretamente que os dispositivos de armazenamento transfiram dados de e para a memória da GPU.
Realizamos uma análise de carga de trabalho GDSIO em um sistema de armazenamento composto por 16 unidades, aumentando gradativamente o número de unidades usadas para entender o desempenho do armazenamento e sua capacidade de saturar uma GPU PCIe Gen 5.
O gráfico de leitura GDSIO ilustra como o aumento do número de SSDs KIOXIA CD8P impacta o rendimento de leitura agregado e médio no r770. Inicialmente, conforme o número de unidades aumenta de um para quatro, o rendimento de leitura agregado aumenta rapidamente, atingindo cerca de 50.2 GiB/seg. Isso sugere que o sistema pode saturar o PCIe Gen 5 x16 com apenas três a quatro unidades para carregamento de dados. Além de cinco unidades, o rendimento agregado atinge um platô, indicando que unidades adicionais não melhoram significativamente. Enquanto isso, o rendimento de leitura médio por unidade permanece estável até 4 unidades, mas depois diminui à medida que mais unidades são adicionadas. Esse declínio no desempenho por unidade ocorre porque mais unidades compartilham a largura de banda do barramento PCIe disponível, e as leituras individuais da unidade são reduzidas.
Em contraste, o desempenho de gravação dessas unidades é muito menor do que seu desempenho de leitura. Foram necessárias todas as 16 unidades para atingir uma largura de banda de gravação de 46.7 GiB/s, com a gravação média das unidades permanecendo quase constante. Considerando que essas são as capacidades de desempenho de gravação mais baixas no portfólio KIOXIA CD8, versões de alta capacidade ou outros SSDs PCIe Gen5 se sairão melhor.
Comparação do Dell PowerEdge R770
Sobre os benchmarks, o R770 é o principal sistema principal da Dell e, como tal, será implantado em muitos ambientes diversos. Então, executamos um conjunto abrangente de benchmarks para esta plataforma para dar uma ideia de como a plataforma se sai em diferentes ambientes. O Lenovo ThinkSystem SR630 V4 foi comparado em alguns testes para mostrar a diferença entre as CPUs E-core e P-core de ponta.
Configuração do sistema
- CPU: 2x Intel Xeon 6787P (86 núcleos cada)
- RAM: 32x Micron 64 GB Dual-Rank DDR5 6400 MT/s Memória total: 2 TB
- Suprimentos de energia: 2x Delta 1500W
- GPU: 1x NVIDIA H100 para o benchmark TGI, 1x NVIDIA L4 para os testes restantes
- placa de rede: Placa de rede DELL BRCM 4P 25G SFP 57504S OCP
- Carta BOSS: Discos BOSS-N1 DC-MHS 0 e 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480 GB
- Discos: 0-5 no Backplane 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4 TB
Desempenho da carga de trabalho de IA
Referência de inferência de geração de texto
Text Generation Inference (TGI) é um servidor de inferência LLM de alto desempenho desenvolvido pela Hugging Face. Ele foi projetado para otimizar a implantação e o consumo de LLMs, tornando-o uma escolha ideal para ambientes de produção. O TGI suporta vários LLMs de código aberto e oferece recursos como paralelismo tensor, streaming de token e loteamento contínuo, que melhoram seu desempenho e eficiência.
Inferência de geração de texto – QwQ 32B
O recurso de benchmarking do TGI é usado para avaliar seu desempenho sob diferentes configurações e cargas de trabalho. O recurso de benchmarking do TGI fornece uma representação mais precisa do desempenho do mundo real, pois considera as complexidades de servir LLMs em um ambiente de produção.
A geração de texto usando LLMs envolve dois estágios principais: o estágio de pré-preenchimento e o estágio de decodificação. O estágio de pré-preenchimento é o passo inicial, onde o LLM processa o prompt de entrada para gerar as representações intermediárias necessárias. Este estágio é computacionalmente intensivo, pois envolve o processamento de todo o prompt de entrada em uma única passagem direta pelo modelo.
Durante o estágio de pré-preenchimento, o prompt de entrada é tokenizado e convertido em um formato que o LLM pode processar. O LLM então calcula o cache KV, que armazena informações sobre os tokens de entrada. O cache KV é uma estrutura de dados crítica que facilita a geração de tokens de saída.
Em contraste, o estágio de decodificação é um processo autorregressivo onde o LLM gera tokens de saída um de cada vez, construindo sobre as representações intermediárias geradas durante o estágio de pré-preenchimento. O estágio de decodificação depende fortemente do cache KV gerado durante o estágio de pré-preenchimento, que fornece o contexto necessário para gerar tokens de saída coerentes e contextualmente relevantes.
Estágio de pré-preenchimento
À medida que o tamanho do lote aumenta de 1 para 32, a latência para todos os três modelos aumenta; a latência do DeepSeek-R1-Distill-Qwen-32 B aumenta de 29.97 ms em um tamanho de lote de 1 para 76.95 ms em um tamanho de lote de 32. Da mesma forma, a latência para GEMMA-3-27B-IT e Qwen/QwQ-32B aumenta de 51.84 ms e 29.90 ms para 79.58 ms e 76.30 ms, respectivamente.
Em contraste, a taxa de token melhora significativamente conforme o tamanho do lote aumenta. Em um tamanho de lote de 1, as taxas de token para os três modelos variam de 192.95 a 334.46 tokens por segundo. Em um tamanho de lote de 32, aumentando para 4158.67, 4021.40 e 4194.13 tokens por segundo para DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT e Qwen/QwQ-32B, respectivamente.
Tamanho do batch | DeepSeek-R1-Destilar-Qwen-32B | GEMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
Latência (ms) | Taxa de Token | Latência (ms) | Taxa de Token | Latência (ms) | Taxa de Token | |
1 | 29.97 | 333.64 | 51.84 | 192.95 | 29.90 | 334.46 |
2 | 30.21 | 662.09 | 52.55 | 380.61 | 29.95 | 667.80 |
4 | 32.40 | 1234.72 | 52.62 | 760.12 | 32.12 | 1245.47 |
8 | 36.98 | 2163.46 | 52.66 | 1519.19 | 36.69 | 2180.66 |
16 | 51.63 | 3125.50 | 60.96 | 2624.64 | 51.29 | 3147.61 |
32 | 76.95 | 4158.67 | 79.58 | 4021.40 | 76.30 | 4194.13 |
Estágio de decodificação
Diferentemente do estágio de pré-preenchimento, a latência durante o estágio de decodificação permanece relativamente estável em diferentes tamanhos de lote. Por exemplo, a latência do DeepSeek-R1-Distill-Qwen-32 B varia de 27.14 ms a 29.52 ms conforme o tamanho do lote aumenta de 2 para 32.
A taxa de token durante o estágio de decodificação melhora com o aumento do tamanho do lote, embora não tão drasticamente quanto durante o estágio de pré-preenchimento. Em um tamanho de lote de 1, a taxa de token é de cerca de 36-37 tokens por segundo para DeepSeek-R1-Distill-Qwen-32B e Qwen/QwQ-32B, e 33.96 tokens por segundo para GEMMA-3-27B-IT. Em um tamanho de lote de 32, as taxas de token aumentam para 1083.83, 873.39 e 1084.89 tokens por segundo, respectivamente.
Tamanho do batch | DeepSeek-R1-Destilar-Qwen-32B | GEMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
Latência (ms) | Taxa de Token | Latência (ms) | Taxa de Token | Latência (ms) | Taxa de Token | |
1 | 27.24 | 36.71 | 29.45 | 33.96 | 27.24 | 36.71 |
2 | 27.14 | 73.70 | 30.80 | 64.93 | 27.14 | 73.69 |
4 | 27.50 | 145.46 | 31.33 | 127.65 | 27.47 | 145.62 |
8 | 27.91 | 286.61 | 32.54 | 245.83 | 27.90 | 286.78 |
16 | 28.31 | 565.07 | 34.71 | 460.92 | 28.44 | 562.56 |
32 | 29.52 | 1083.83 | 36.64 | 873.39 | 29.50 | 1084.89 |
Isso é esperado, pois o estágio de pré-preenchimento calcula estados ocultos iniciais e caches de valor-chave para todo o prompt de entrada, o que pode saturar bem a GPU porque operações grandes em lote podem ser executadas simultaneamente. Após processar o prompt, o modelo gera novos tokens, geralmente um de cada vez. Em cada etapa, o modelo pega o token anterior e os estados ocultos em cache e produz o próximo token. Como esse estágio efetivamente prossegue token por token, o tamanho do lote geralmente é pequeno, então a GPU é frequentemente subutilizada.
Benchmark de visão computacional Procyon AI
Usando tarefas de visão de máquina do mundo real, o Procyon AI Computer Vision Benchmark avalia o desempenho de inferência de IA em CPUs, GPUs e aceleradores de IA. Ele oferece suporte a vários mecanismos de inferência, como TensorRT, OpenVINO, SNPE, Windows ML e Core ML, fornecendo insights sobre eficiência, compatibilidade e otimização.
Os resultados do Procyon AI Computer Vision Benchmark também mostram um forte desempenho de inferência de IA. O sistema atingiu tempos de inferência baixos, com o MobileNet V3 em 20.64 ms e o ResNet 50 em 22.42 ms. O Inception V4 e o DeepLab rodaram em 65.23 ms e 41.37 ms, respectivamente, lidando com cargas de trabalho de visão mais complexas de forma eficaz. O YOLO V3, um modelo de detecção de objetos-chave, processou em 37.80 ms, tornando-o adequado para aplicações de IA em tempo real. O REAL-ESRGAN, um modelo de super-resolução computacionalmente intensivo, registrou 1,159.22 ms, o que nos deu uma pontuação geral de AI Computer Vision de 81.
Visão computacional de IA (quanto menor a duração, melhor) (quanto maior a pontuação, melhor) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) |
---|---|
Tempo médio de inferência do MobileNet V3 | 20.64 ms |
Tempo médio de inferência do ResNet 50 | 22.42 ms |
Tempo médio de inferência do Inception V4 | 65.23 ms |
Tempo médio de inferência do DeepLab | 41.37 ms |
Tempo médio de inferência do YOLO V3 | 37.80 ms |
Tempo médio de inferência REAL-ESRGAN | 1,159.22 ms |
Pontuação geral da visão computacional da IA | 81 |
Martelo DB TPROC-C
Também avaliamos o desempenho de quatro bancos de dados populares de código aberto — MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 e PostgreSQL 17.2 — usando o benchmark HammerDB TPROC-C para simular cargas de trabalho OLTP em 500 warehouses.
O MariaDB surgiu como o de melhor desempenho, particularmente em configurações de soquete duplo, onde ele foi dimensionado efetivamente e atingiu o maior rendimento de transações. O MySQL 8.4.4 mostrou melhorias marcantes em relação à versão legada 5.7.44, destacando melhorias em lançamentos recentes. O PostgreSQL 17.2 apresentou desempenho consistente, mas ficou um pouco atrás do MariaDB e do MySQL 8.4.4. O MariaDB entregou 3.15 milhões de TPM em um único soquete e 5.8 milhões de TPM em soquetes duplos, superando o restante em ambos os cenários.
Tabela de comparação de desempenho (transações por minuto, TPM)
Mecanismo de banco de dados | TPM de soquete único | TPM de soquete duplo |
---|---|---|
MariaDB 11.4.4 | 3,150,000 | 5,800,000 |
MySQL 8.4.4 | 2,850,000 | 5,150,000 |
PostgreSQL 17.2 | 2,700,000 | 4,900,000 |
MySQL 5.7.44 | 2,300,000 | 4,250,000 |
Apesar do hardware poderoso do R770, incluindo 86 núcleos por CPU (uma mistura de núcleos de alta e baixa prioridade), nenhum dos bancos de dados demonstrou ganhos significativos de desempenho quando distribuídos em ambos os soquetes. Isso reflete a preferência comum de bancos de dados de código aberto para execução de soquete único devido à melhor localidade do núcleo e latência de memória reduzida.
Dados esses resultados, o R770 é mais adequado para executar várias instâncias de banco de dados em um ambiente virtualizado em vez de escalar uma única instância. A arquitetura do sistema é ideal para suportar uma carga de trabalho de banco de dados misto de alta densidade, utilizando núcleos de desempenho e eficiência para fornecer rendimento consistente em muitas instâncias.
7-Zip
O benchmark de memória integrado do popular utilitário 7-Zip mede o desempenho da CPU e da memória de um sistema durante tarefas de compactação e descompactação, indicando quão bem o sistema pode lidar com operações com uso intensivo de dados.
No benchmark 7-Zip, quando se trata de tarefas de compressão, o sistema Dell teve uma classificação mais alta (266.425 GIPS) do que o Lenovo (224.313 GIPS), com o Dell mostrando um uso de CPU ligeiramente menor. No entanto, a Lenovo superou a Dell na descompressão com uma classificação resultante mais alta (288.457 GIPS vs. 256.154 GIPS) e uso de CPU um pouco maior. A Dell teve uma classificação total geral marginalmente maior de (261.290 GIPS), demonstrando melhor eficiência geral em tarefas de compressão e descompressão.
Compressão 7-Zip e descompressão | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
Comprimindo – Uso atual da CPU | 5267% | 5064% |
Compressão – Classificação/Uso atual | 5.061 GIP | 4.341 GIP |
Compressão – Classificação atual | 266.591 GIP | 219.840 GIP |
Compressão – Uso de CPU resultante | 5270% | 5156% |
Compressão – Classificação/Uso resultante | 5.056 GIP | 4.350 GIP |
Comprimindo – Classificação resultante | 266.425 GIP | 224.313 GIP |
Descomprimindo – Uso atual da CPU | 5623% | 6184% |
Descompressão – Classificação/Uso atual | 4.586 GIP | 4.688 GIP |
Descompressão – Classificação atual | 257.909 GIP | 289.879 GIP |
Descompressão – Uso de CPU resultante | 5627% | 6205% |
Descompressão – Classificação/Uso resultante | 4.553 GIP | 4.649 GIP |
Descompressão – Classificação resultante | 256.154 GIP | 288.457 GIP |
Total – Uso total da CPU | 5448% | 5681% |
Total – Classificação/Uso total | 4.804 GIP | 4.500 GIP |
Total – Classificação total | 261.290 GIP | 256.385 GIP |
triturador de y
y-cruncher é um aplicativo popular de benchmarking e teste de estresse que foi lançado em 2009. Este teste é multithread e escalável, computando Pi e outras constantes de até trilhões de dígitos. Mais rápido é melhor neste teste. Este software tem sido fantástico em testar plataformas de alta contagem de núcleos e mostrar vantagens de computação entre plataformas de soquete único e duplo.
Os resultados do benchmark Y-cruncher mostram uma lacuna de desempenho significativa entre o Dell PowerEdge R770, alavancando as CPUs P-core, e o Lenovo ThinkSystem SR630 V4 com CPUs E-core, particularmente conforme o tamanho do conjunto de dados aumenta. Isso tem menos a ver com qual sistema é melhor e mais com mostrar como os tipos de CPU se comparam sob essa carga de trabalho.
Para cálculos menores, o sistema Dell já estava à frente, computando 1 bilhão de dígitos de Pi em 2.753 segundos, enquanto o Lenovo levou mais que o dobro do tempo, 5.997 segundos. Conforme a carga de trabalho aumentou, a lacuna aumentou. Com 10 bilhões de dígitos, o Dell terminou em 34.873 segundos, menos da metade do tempo dos 81.046 segundos do Lenovo. Na marca de 50 bilhões de dígitos, a Dell manteve sua vantagem, completando a tarefa em 221.255 segundos, enquanto a Lenovo levou 476.826 segundos, tornando a Dell 53% mais rápida.
Com 100 bilhões de dígitos, a Lenovo não conseguiu completar o teste, devido à sua configuração atual de 512 GB de RAM. Com 2 TB de RAM, a Dell lidou com a carga de trabalho de forma eficiente, terminando em 491.737 segundos.
Y-cruncher (duração menor é melhor) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
1 bilhões | 2.753 segundos | 5.997 segundos |
2.5 bilhões | 7.365 segundos | 17.573 segundos |
5 bilhões | 16.223 segundos | 37.793 segundos |
10 bilhões | 34.873 segundos | 81.046 segundos |
25 bilhões | 99.324 segundos | 220.025 segundos |
50 bilhões | 221.255 segundos | 476.826 segundos |
100 bilhões | 491.737 segundos |
Liquidificador OptiX
Um aplicativo de modelagem 3D de código aberto. Este benchmark foi executado usando o utilitário Blender Benchmark. A pontuação é de amostras por minuto, com maior sendo melhor.
Os resultados do benchmark Blender mostram uma clara vantagem de desempenho para o Dell PowerEdge R770 sobre o Lenovo ThinkSystem SR630 V4, particularmente na renderização da CPU. Na cena CPU Monster, a Dell atingiu 1,706.002 amostras por minuto, uma vantagem de 19% sobre as 1,432.09 amostras por minuto da Lenovo. O teste CPU Junkshop enfatizou ainda mais essa lacuna, com o Dell atingindo 1,169.370 amostras por minuto, superando as 914.75 amostras por minuto da Lenovo em 28%. Da mesma forma, a Dell postou 791.475 amostras por minuto no teste CPU Classroom, enquanto a Lenovo ficou para trás em 656.68 amostras por minuto, uma diferença de 20%.
A falta de uma GPU no sistema Lenovo também significava que ele não podia participar da renderização baseada em GPU, onde o NVIDIA L4 da Dell mostrou uma pontuação de 1,895.71 Amostras/Min para Monster, 950.42 Amostras/Min e uma pontuação de Sala de Aula de 968.43 Amostras/Min.
Benchmark CPU do Blender | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
Monstro da CPU (Blender 4.3) | 1,706.002 Amostras/Min | 1432.09 Amostras/Min |
Loja de sucata de CPU (Blender 4.3) | 1,169.370 Amostras/Min | 914.75 Amostras/Min |
Sala de aula da CPU (Blender 4.3) | 791.475 Amostras/Min | 656.68 Amostras/Min |
Monstro GPU (Blender 4.3) | 1,895.712 Amostras/Min | (sem GPU) |
GPU Junkshop (Blender 4.3) | 950.424 Amostras/Min | (sem GPU) |
Sala de aula de GPU (Blender 4.3) | 968.432 Amostras/Min | (sem GPU) |
Cinebench R23
A ferramenta de benchmark Cinebench R23 avalia o desempenho da CPU de um sistema renderizando uma cena 3D complexa usando o mecanismo Cinema 4D. Ele mede o desempenho de núcleo único e multinúcleo, fornecendo uma visão abrangente das capacidades da CPU no tratamento de tarefas de renderização 3D.
No Cinebench R23, os resultados do benchmark destacam diferenças notáveis no desempenho da CPU entre o Dell PowerEdge R770 e o Lenovo ThinkSystem SR630 V4, especialmente considerando o número de núcleos por processador. O Lenovo ThinkSystem SR630 V4, equipado com 2x processadores Intel Xeon 6780E (144 núcleos por processador), superou o Dell no teste CPU Multi-Core com uma pontuação de 99,266 pontos, em comparação com os 74,710 pontos do Dell. Essa diferença reflete a vantagem da Lenovo em cargas de trabalho multithread, graças à sua maior contagem de núcleos (288 núcleos no total) em comparação com os 2x processadores Intel Xeon 6787P da Dell (86 núcleos por processador), o que limita seu desempenho multi-core.
No teste de CPU Single-Core, a Dell teve um desempenho melhor, com uma pontuação de 1,272 pontos, superando os 894 pontos da Lenovo, destacando a eficiência superior de thread único da Dell, apesar de sua menor contagem de núcleos.
Cinebench R23 | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
CPU multinúcleo | 74,710 pts | 99,266 pts |
CPU de núcleo único | 1,272 pts | 894 pts |
Taxa de MP | 58.74 x | 111.00 x |
Cinebench 2024
Cinebench 2024 amplia os recursos de benchmark do R23 adicionando avaliação de desempenho de GPU. Ele continua testando o desempenho da CPU, mas também inclui testes que medem a capacidade da GPU de lidar com tarefas de renderização.
Neste benchmark atualizado, o Dell PowerEdge R770 marcou 12,996 pontos para desempenho de GPU, destacando sua capacidade de lidar com tarefas de renderização aceleradas por GPU. O Lenovo ThinkSystem SR630 V4 não tem uma GPU dedicada, então não registrou uma pontuação de GPU.
No teste CPU Multi-Core, o Lenovo marcou 2,884 pontos, ligeiramente à frente dos 2,831 pontos da Dell, indicando uma ligeira vantagem no desempenho multi-core para o Lenovo. Para CPU Single-Core, o Dell superou o Lenovo, marcando 71 pontos, em comparação com os 53 pontos da Lenovo, mostrando o desempenho single-core mais alto do Dell, apesar de ter menos núcleos.
Cinebench R24 | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
Pontuação GPU | 12,996 pts | |
CPU multinúcleo | 2,831 pts | 2,884 pts |
CPU de núcleo único | 71 pts | 53 pts |
Taxa de MP | 39.77 x | 54.43 x |
Geekbench 6
Geekbench 6 é um benchmark multiplataforma que mede o desempenho geral do sistema. O Geekbench Browser permite que você compare qualquer sistema a ele.
Os resultados do benchmark Geekbench 6 demonstram diferenças óbvias de desempenho entre o Dell PowerEdge R770 e o Lenovo ThinkSystem SR630 V4. No teste CPU Single-Core, o Dell superou o Lenovo com uma pontuação de 1,797, enquanto o Lenovo marcou 1,173, indicando uma melhoria de 53% no desempenho single-core para o Dell.
No teste CPU Multi-Core, a Dell liderou novamente com 15,880, enquanto a Lenovo pontuou 13,868, dando à Dell uma vantagem de 14% no desempenho multi-core. Isso sugere que os processadores Intel Xeon 6787P da Dell fornecem poder computacional geral superior, especialmente em tarefas que se beneficiam de múltiplos núcleos.
O teste GPU OpenCL destacou ainda mais a vantagem da Dell, com uma pontuação de 148,730 graças à GPU NVIDIA L4.
Geekbench 6 (quanto mais alto, melhor) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
CPU de núcleo único | 1,797 | 1,173 |
CPU multinúcleo | 15,880 | 13,868 |
Pontuação OpenCL da GPU | 148,730 | (sem GPU) |
Teste de velocidade Blackmagic RAW
O Blackmagic RAW Speed Test é uma ferramenta de benchmarking de desempenho projetada para medir as capacidades de um sistema em lidar com reprodução e edição de vídeo usando o codec Blackmagic RAW. Ele avalia quão bem um sistema pode decodificar e reproduzir arquivos de vídeo de alta resolução, fornecendo taxas de quadros para processamento baseado em CPU e GPU.
No teste baseado em CPU, o Dell PowerEdge R770 atingiu 141 FPS, superando o Lenovo ThinkSystem SR630 V4, que marcou 120 FPS. Isso indica que o sistema Dell lida com processamento de vídeo baseado em CPU de forma mais eficiente do que o Lenovo. Para o teste baseado em GPU, o Dell PowerEdge R770 marcou 157 FPS, beneficiando-se da presença de uma GPU NVIDIA.
Teste de velocidade Blackmagic RAW (quanto maior, melhor) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB de Ram) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB de Ram) |
---|---|---|
CPU FPS | 141 FPS | 120 FPS |
FPS CUDA | 157 FPS | 0 FPS (sem GPU) |
Blackmagic Disk Speed Test
O Blackmagic Disk Speed Test avalia as velocidades de leitura e gravação de um drive, estimando seu desempenho, especialmente para tarefas de edição de vídeo. Ele ajuda os usuários a garantir que seu armazenamento seja rápido o suficiente para conteúdo de alta resolução, como vídeo 4K ou 8K.
No teste de velocidade Blackmagic, a placa chefe Dell PowerEdge R770 com SK Hynix 480 GB Dell NVMe espelhado atingiu uma velocidade de leitura de 3,010.3 MB/s e uma velocidade de gravação de 976.3 MB/s.
Conclusão
O Dell PowerEdge R770 realmente nos empolga, motivado pela adoção do padrão Data Center Modular Hardware System do Open Compute Project e hardware de ponta. A integração do OCP DC MHS traz inúmeros benefícios, incluindo modularidade aprimorada, melhor capacidade de manutenção e custos potencialmente reduzidos por meio de maior padronização. Essa filosofia de design é evidente em todos os aspectos do sistema, desde a implementação do iDRAC como um OCP DC-SCM até as portas.
O R770 também ostenta capacidades de armazenamento impressionantes, suportando até 40 unidades E3.S em um único chassi 2U, tornando-o uma solução ideal para cargas de trabalho intensivas em armazenamento. Além disso, a flexibilidade do servidor é ainda mais aprimorada por seu suporte para várias configurações, incluindo uma configuração Front I/O Cold Aisle Accessible, fornecendo maior flexibilidade para diferentes layouts de data center e requisitos de manutenção.
Com suporte para uma ampla lista de GPUs e CPUs Intel Xeon 6 Performance core, o R770 é realmente uma plataforma de servidor poderosa e versátil, bem adequada para atender às demandas de data centers modernos. Seu hardware de ponta, design modular e recursos de segurança robustos tornam o R770 uma opção atraente para organizações que buscam implantar IA, HPC e cargas de trabalho empresariais tradicionais.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed