Ao publicar nossa análise do Dell Power Edge R760 servidor, adiamos propositalmente os números de armazenamento, observando que o R760 tem muitas opções de configuração de armazenamento que tornariam a revisão inicial muito longa. Nesta análise, estamos analisando as opções de armazenamento que o Dell PowerEdge suporta para SSDs Gen4 NVMe e o perfil de desempenho do que a Dell chama de Direct Drives versus placa RAID de hardware PERC 12.
Ao publicar nossa análise do Dell Power Edge R760 servidor, adiamos propositalmente os números de armazenamento, observando que o R760 tem muitas opções de configuração de armazenamento que tornariam a revisão inicial muito longa. Nesta análise, estamos analisando as opções de armazenamento que o Dell PowerEdge suporta para SSDs Gen4 NVMe e o perfil de desempenho do que a Dell chama de Direct Drives versus placa RAID de hardware PERC 12.
Opções de backplane Dell PowerEdge NVMe
A Dell oferece vários backplanes de armazenamento em seus servidores 16G PowerEdge. Ao configurar o R760, existem quase 50 opções de chassis de acionamento. Embora parte disso seja suporte legado (PERC 11, por exemplo), o ponto é que a decisão do chassi é importante. Isso nem leva em conta o próximo suporte a SSD E3.S NVMe, que é a única maneira de obter SSDs Gen5 em servidores PowerEdge. Nós olhamos para E3.S no Dell PowerEdge R660 se você quiser saber mais sobre os benefícios dos fatores de forma Gen5 e EDSFF.
De volta à tarefa em questão. Para esta revisão, queremos entender as implicações de selecionar a opção Direct Drives da Dell em comparação com a opção de placa PERC 12 HWRAID. Conforme mencionado, o foco explícito aqui é apenas em consideração aos SSDs Gen4 U.2/U.3 NVMe. Por enquanto, estamos ignorando as opções de chassis para SATA/SAS e HDDs de 3.5″. Essas configurações são muito mais simples.
No R760, a Dell oferece algumas opções de chassi para incluir unidades Gen4 NVMe. A opção Direct Drives pode ser configurada para suporte de 8 ou 16 unidades. Para as configurações HWRAID, a Dell oferece a placa PERC 12 HWRAID da mesma forma, com uma placa RAID para cada lote de 8 SSDs. Essa decisão é importante, pois é fundamental para permitir que um R760 totalmente preenchido com 16 SSDs NVMe obtenha o melhor desempenho possível.
Visão geral do Dell PERC 12
O Dell PowerEdge RAID Controller (PERC) 12 é baseado no silício Broadcom SAS4116W. Apesar de SAS no nome do produto, o controlador é um dispositivo RAID-on-Chip (ROC) de três modos. O mesmo controlador RAID é usado na linha Broadcom MegaRAID. Recentemente revisamos o MegaRAID 9670W destacando as principais capacidades. Com o Dell PERC 12, no entanto, diferenças essenciais de design entram em jogo, dependendo de qual servidor Dell e família de armazenamento você está interessado.
Em relação ao PowerEdge, a maioria das configurações utilizará a placa PERC 965 “H12i Front”. Em nossa análise do sistema R760 com HWRAID, temos duas dessas placas frontais H965i no sistema, uma para cada conjunto de 8 SSDs Solidigm P5520. Vale ressaltar que esses cartões são significativamente menores do que o cartão adicional. O design do PCB e o gerenciamento térmico são realmente impressionantes. Essas placas são montadas diretamente no backplane NVMe de 8 unidades e conectadas à placa-mãe com dois cabos PCIe x8. Isso libera slots PCIe no lado de leitura do servidor para outros dispositivos.
Falando em placas adicionais, o PERC 12 H965i padrão é uma placa de meia altura e meio comprimento que inclui uma ventoinha integrada. Esta versão do PERC 12 aparecerá em algumas configurações do PowerEdge e também pode ser encontrada em alguns dos novos JBODs Dell PowerVault MD. Por fim, há um H965i MX, que é um PCB longo e estreito projetado para algo como o chassi modular MX7000.
Dell PERC 11 x PERC 12
A placa Dell PERC 11 suportava SSDs NVMe, mas, infelizmente, os benefícios do RAID de hardware acarretavam um alto custo de desempenho. Esse sucesso é precisamente o motivo pelo qual a indústria está tão empolgada com o novo silício da Broadcom e a versão da placa da Dell, a PERC. A Dell publicou alguns números na diferença entre PERC 11 e PERC 12, que são surpreendentes.
Os benefícios de latência do PERC 12 são claramente evidentes; mas observe o desempenho nas piores condições, desempenho durante uma reconstrução. O PERC 12 obtém uma melhoria de alguns milhares por cento e até mesmo o tempo de reconstrução do RAID apresenta benefícios significativos.
Observando a largura de banda e os números de IOPS que a Dell cita, podemos ver novamente o enorme passo à frente que o PERC 12 dá em comparação com o PERC 11. Em todos os aspectos, todas essas cargas de trabalho apresentam uma melhoria mínima de 2 vezes na placa PERC 12. Claro, fizemos nossos testes para verificar o desempenho do PERC 12 e chegaremos lá.
Dell Direct Drives vs. Desempenho Dell PERC 12
Para comparar o desempenho de armazenamento em Direct Drives vs. PERC 12, configuramos nossos “primos” de servidor R760 com SSD Solidigm P5520 7.68 TB. O Dell R760 com Direct Drives tem 8 compartimentos NVMe. O R760 com PERC 12 tem 16 baias NVMe com duas placas H965i Front RAID.
Pelo valor de face, pode não ser óbvio que existem certas limitações de desempenho em ambos os lados. Começando com a abordagem Direct Drives, cada SSD tem sua própria conexão PCIe x4, o que significa que oito SSDs têm 32 faixas de PCIe dedicadas a eles.
Isso permite uma largura de banda incrível, geralmente acima de 52 GB/s se cada unidade Gen4 puder saturar sua conexão de 6.5 GB/s. Em comparação com a configuração do PERC 12 H965i, cada grupo de oito SSDs faz interface diretamente com a placa RAID, que se conecta novamente à placa-mãe com uma conexão PCIe x16. Isso reduz pela metade a largura de banda suportada pela configuração Direct Drives. Então, obviamente, as conexões NVMe nativas vencem? Não exatamente.
Ao lidar com vários dispositivos NVMe em um sistema multi-CPU, o mapeamento NUMA entre a unidade e a CPU, bem como as interrupções do sistema, entram em jogo. Isso pode ser otimizado, mas requer um ajuste significativo. Nem todos os aplicativos levam isso em consideração.
A virtualização é um desafio para gerenciar o mapeamento NUMA, pois os recursos compartilhados são balanceados em tempo real, às vezes para uma CPU que pode não ter acesso direto aos recursos PCIe atribuídos. As placas RAID de hardware atenuam muitos desses problemas e otimizam as interrupções do sistema e a troca de contexto, o que libera recursos da CPU. O mapeamento NUMA também se torna menos complexo, pois em vez de ter 16 SSDs individuais divididos em duas CPUs, você tem apenas um cartão de armazenamento por CPU para gerenciar.
Nosso plano de teste se concentra em duas áreas. A primeira são as cargas de trabalho do Vdbench que medem o desempenho do JBOD com oito SSDs transmitidos para R760. Nos Direct Drives R760 estão oito SSDs nativos, enquanto no HWRAID R760, o PERC 12 passa por oito dispositivos de armazenamento bruto. Ambos são testados como estão sem otimizações. A segunda etapa do teste mostra o desempenho dimensionado da solução PERC 2 de uma configuração de placa única para uma configuração de placa dupla otimizada.
Nossa unidade de revisão Direct Drives PowerEdge R760 tem a seguinte configuração:
- Dual Intel Xeon Gold 6430 (32 núcleos/64 threads, base de 1.9 GHz)
- RAM DDR1 de 5 TB
- 8 SSDs Solidigm P5520 7.68 TB Gen4
- RHEL 9
A unidade de revisão HWRAID NVMe PowerEdge R760 tem a seguinte configuração:
- Dual Intel Xeon Gold 6430 (32 núcleos/64 threads, base de 1.9 GHz)
- RAM DDR1 de 5 TB
- 16 SSDs Solidigm P5520 7.68 TB Gen4
- PERC 12 H965i duplo
- RHEL 9
Análise de Carga de Trabalho do Vdbench
Ao comparar dispositivos de armazenamento, o teste de aplicativo é o melhor, seguido pelo teste sintético. Embora não seja uma representação perfeita das cargas de trabalho reais, os testes sintéticos ajudam os dispositivos de armazenamento de linha de base com um fator de repetibilidade que facilita a comparação entre soluções concorrentes. Essas cargas de trabalho oferecem uma variedade de perfis de teste, desde testes de "quatro cantos" e testes comuns de tamanho de transferência de banco de dados até capturas de rastreamento de diferentes ambientes VDI.
Esses testes utilizam o típico gerador de carga de trabalho Vdbench com um mecanismo de script para automatizar e capturar resultados em um grande cluster de teste de computação. Isso nos permite repetir as mesmas cargas de trabalho em vários dispositivos de armazenamento, incluindo flash arrays e dispositivos de armazenamento individuais. Nosso processo de teste para esses benchmarks preenche toda a superfície da unidade com dados e, em seguida, particiona uma seção igual a 25% da capacidade da unidade para simular como a unidade pode responder às cargas de trabalho do aplicativo. Isso difere dos testes de entropia completos, que usam 100 por cento da unidade e os levam a um estado estável. Como resultado, esses números refletirão velocidades de gravação sustentadas mais altas.
perfis:
- 4K Random Read and Write: 100% Read or Write, 128 threads, 0-120% iorate
- Leitura sequencial de 64K: 100% de leitura, 32 threads, 0-120% de iorado
- Gravação sequencial de 64K: 100% de gravação, 16 threads, 0-120% de iorado
- 4K 70R/30W e 90R/10W Random Mix, 64 threads, 0-120% iorado
Observando nosso primeiro teste com foco na largura de banda de transferência de leitura, podemos ver a vantagem do canal PCIe que a abordagem de Direct Drives tem com 32 pistas PCIe sobre o PERC 12 único com 16 pistas. Isso resulta em 41.6 GB/s de unidades diretas versus 28 GB/s do PERC 12 no modo JBOD.
Mudando da largura de banda de leitura para gravação, a vantagem das faixas PCIe adicionais diminui, pois a velocidade de gravação do Solidigm P5520 é menor do que a velocidade de leitura. Aqui, a configuração do Direct Drives mediu 18.3 GB/s em comparação com 20.3 GB/s do PERC 12.
Em nossa carga de trabalho de leitura aleatória de 4K, os 8 SSDs Solidigm P5520 no Direct Drive PowerEdge R760 mediram 5.55 milhões de IOPS de pico, em comparação com 4.34 milhões de IOPS na configuração PERC 12.
Na gravação aleatória de 4K, essa diferença diminui novamente, com Direct Drives medindo 3.96 milhões de IOPS versus 4.15 milhões de IOPS no PERC 12.
Em nossa primeira de duas cargas de trabalho mistas, examinamos uma transferência aleatória de 4K com uma distribuição de leitura/gravação de 70/30. Aqui, a configuração do Direct Drives PowerEdge R760 mediu 4.47 milhões de IOPS de pico, contra o PERC 12 com 3.66 milhões de IOPS.
Aumentando a porcentagem de leitura para 90% no mesmo teste de transferência de 4K, medimos 5.04 milhões de IOPS do servidor Direct Drives versus 3.62 milhões de IOPS do sistema PERC 12.
Análise de Carga de Trabalho FIO
Para medir o desempenho das unidades das ofertas Direct Drive e PERC 12 HWRAID da Dell, os benchmarks foram divididos nas seguintes configurações. O primeiro incluiu uma configuração JBOD medindo cada unidade fora das configurações RAID, RAID10 e RAID5.
Para a abordagem Direct Drives, os SSDs aparecem no sistema operacional normalmente; para o PERC 12, eles passam pelo HBA como dispositivos de armazenamento bruto. Essas configurações passaram por um processo de script para pré-condicionar o flash, executar os testes para os quais foram condicionadas e passar para a próxima mistura de pré-condicionamento/carga de trabalho.
- Pré-condicionamento sequencial
- Testes sequenciais em JBOD, 8DR10, 8DR5 (Single e Dual PERC)
- Pré-condicionamento aleatório
- Testes otimizados aleatórios em JBOD, 8DR10, 8DR5 (Single e Dual PERC)
- Testes de reconstrução aleatória em 8DR10, 8DR5 (Single e Dual PERC)
- Latência de gravação aleatória para otimizar e reconstruir para 8DR5 (Single PERC)
Com o PERC 12 H965i tendo um slot x16 PCIe Gen4, seu desempenho máximo será em torno de 28 GB/s em uma direção, e é aí que o slot Gen4 se destaca. A Dell adotou uma abordagem exclusiva para esse limite de largura de banda, oferecendo uma configuração PERC 12 dupla em seu PowerEdge R760. Em vez de 16 baias de SSD conectadas a uma única placa, a carga é dividida, com cada PERC 12 controlando seu próprio conjunto de 8 SSDs. Essa abordagem contorna a limitação da largura de banda enquanto aumenta drasticamente o pico de taxa de transferência disponível sob cargas de trabalho exigentes.
Olhando primeiro para o desempenho da transferência sequencial, podemos ver a vantagem de largura de banda que a configuração Direct Drives tem, com velocidade de leitura medindo 54.4 GB/s contra o PERC 12 único medindo 28.1 GB/s. A velocidade de gravação nativa também tem uma vantagem, medindo 33.4 GB/s contra 28.3 GB/s do PERC 12 único com oito unidades atrás dele. As velocidades de gravação, em geral, não verão uma grande diferença aqui, pois, de modo geral, essa classe de SSD tem velocidade de leitura muito superior à velocidade de gravação.
Carga de trabalho | Unidades diretas JBOD (MB/s) | JBOD 1 x PERC 12 (MB/s) | JBOD 2 x PERC 12 (MB/s) | RAID 10 1 x PERC 12- Ideal (MB/s) | RAID 10 2 x PERC 12- Ideal (MB/s) | RAID 5 1 x PERC 12 – Ideal (MB/s) | RAID 5 2 x PERC 12 – Ideal (MB/s) |
---|---|---|---|---|---|---|---|
Máximo de leituras sequenciais | 54,396 | 28,076 | 56,114 | 27,450 | 55,482 | 24,049 | 56,107 |
Máximo de gravações sequenciais | 33,367 | 28,284 | 56,541 | 11,037 | 22,120 | 12,269 | 24,351 |
Máximo de 50:50 Seq Reads:Writes | 33,569 | 28,286 | 56,541 | 11,011 | 21,875 | 12,269 | 24,360 |
Mudando nosso foco para o desempenho de transferência aleatória, começamos a ver uma mudança nas vantagens da placa RAID em relação ao balanceamento NUMA. Com desempenho de leitura, os SSDs Solidigm 7.68TB P5520 mediram 7.96M IOPS em nosso teste de leitura 4K, com a configuração PERC 12 JBOD medindo 7M IOPS. A velocidade de gravação por meio da configuração de unidades diretas caiu para 3.4 milhões de IOPS, enquanto o PERC 12 manteve 5.97 milhões de IOPS. Com a carga de trabalho 4K OLTP, isso se torna ainda mais pronunciado com os Direct Drives medindo 3.6 milhões de IOPS versus 10.2 milhões de IOPS do PERC 12.
Embora o pensamento tradicional seja que o RAID de hardware não tem valor com os SSDs modernos, podemos ver que esse não é mais o caso. Sim, a configuração Direct Drives NVMe pode ser ajustada, mas é um alvo móvel em vários SSDs equilibrados em duas CPUs.
Isso contrasta diretamente com a placa PERC 12 HWRAID, que gerencia toda essa complexidade e se conecta a apenas uma CPU. Para dimensionamento, a segunda placa PERC no Dell PowerEdge R2 se conecta à outra CPU, oferecendo balanceamento para cargas de trabalho maiores divididas nesses dois grupos de discos. Deve-se notar que em torno de 760M IOPS, o sistema começou a saturar as CPUs, e é por isso que não vimos escala linear em algumas áreas com a placa PERC 10 adicional.
Carga de trabalho | Unidades diretas JBOD (MB/s) | JBOD 1 x PERC 12 (MB/s) | JBOD 2 x PERC 12 (MB/s) | RAID 10 1 x PERC 12 – Ideal (MB/s) | RAID 10 2 x PERC 12 – Ideal (MB/s) | RAID 5 1 x PERC 12 – Ideal (MB/s) | RAID 5 2 x PERC 12 – Ideal (MB/s) |
---|---|---|---|---|---|---|---|
Leituras aleatórias de 4 KB (IOPs) | 7,958,204 | 7,003,556 | 12,447,020 | 6,757,498 | 13,067,852 | 6,974,826 | 13,205,656 |
Gravações aleatórias de 4 KB (IOPs) | 3,473,446 | 5,974,265 | 11,323,633 | 2,204,738 | 4,684,333 | 862,769 | 1,725,198 |
OLTP de 4 KB (IOPs) | 3,553,974 | 10,195,618 | 11,967,984 | 6,441,868 | 12,288,219 | 2,635,711 | 5,279,999 |
Embora não tenhamos examinado as opções de RAID de software com a configuração Direct Drives PowerEdge R760, tivemos a chance de ver o desempenho da configuração de RAID no PERC 12 em um estado degradado. Embora o desempenho tenha sofrido uma queda significativa em comparação com seu desempenho ideal, o RAID10 e o RAID5 ofereceram forte desempenho durante a reconstrução de seus grupos de RAID.
Carga de trabalho | RAID 10 1 x PERC 12 – Reconstruir (MB/s) | RAID 10 2 x PERC 12 – Reconstruir (MB/s) | RAID 5 1 x PERC 12 – Reconstruir (MB/s) | RAID 5 2 x PERC 12 – Reconstruir (MB/s) |
---|---|---|---|---|
Leituras aleatórias de 4 KB (IOPs) | 1,345,175 | 2,692,738 | 2,350,889 | 4,676,748 |
Gravações aleatórias de 4 KB (IOPs) | 1,666,967 | 3,174,430 | 242,802 | 479,144 |
OLTP de 4 KB (IOPs) | 1,618,209 | 3,253,603 | 243,349 | 486,251 |
Embora o desempenho RAID ideal seja um aspecto importante da escolha de uma solução de armazenamento, ver como ele funciona em condições abaixo do ideal pode ser igualmente importante. Para esse fim, medimos a latência de gravação de 4K em RAID5 em condições ideais e reconstruímos o desempenho com uma falha na unidade. Se o desempenho ou a latência sofressem um grande impacto, a capacidade de resposta do aplicativo poderia se tornar um problema. Embora o desempenho de reconstrução diminua em comparação com o ideal, a latência do desempenho não aumenta na linha de base.
Considerações Finais
A nova placa RAID PERC12 NVMe da Dell muda o jogo para opções de armazenamento NVMe em servidores PowerEdge. No passado, alguns clientes hesitavam em mudar de SSDs SAS ou optavam por unidades NVMe conectadas a vários SDS ou hipervisores. No entanto, a introdução do cartão PERC 12 alterou a equação do PowerEdge, tornando-o uma opção mais viável.
A razão pela qual o PERC 12 tem um desempenho tão bom também pode ser atribuída ao layout do servidor PowerEdge. Nosso R760 tem duas placas PERC 12 (H965i Front), cada uma com x16 vias. Isso nos permite utilizar os 8 SSDs Solidigm com cada cartão, fornecendo uma largura de banda máxima de até 28 GB/s por cartão. Conectar todos os 16 SSDs a uma única placa RAID resultaria em uma perda de metade do desempenho potencial.
Você pode perguntar: “Por que não 24 SSDs com HWRAID?” Apenas lembre-se de que todo sistema tem um gargalo em algum lugar. Nesse caso, podemos saturar a CPU com bastante facilidade, então o x86 dentro do servidor se torna o fator de controle. Se estivermos falando de uma solução em cluster, também iremos vincular a rede. Um punhado de SSDs pode preencher facilmente 200 GbE ou até 400 GbE. Com capacidades de SSD agora chegando a 30.72 TB, há menos necessidade de ter um servidor cheio de unidades para problemas de capacidade do sistema também.
Se você ler o nosso Revisão da placa RAID da série Broadcom 9600, começamos bastante céticos de que o novo silício forneceria realisticamente toda a resiliência de dados e reconstruiria os benefícios do HWRAID sem prejudicar o perfil de desempenho do SSD NVMe. Ficamos agradavelmente surpresos com os resultados naquela análise e ainda mais aqui, com o PERC 12 sendo capaz de dobrar no R760 para obter o dobro do desempenho de primeira linha. Embora os Dell Direct Drives ainda possam ser preferidos em muitos casos de uso, como armazenamento definido por software, a opção PERC 12 deve ser extremamente popular para a maioria dos casos de uso corporativo.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed