Durante o evento Step Ahead em Pequim, a Memblaze lançou uma nova série de unidades 500 NVME, bem como uma expansão de sua linha 900 para 910 e 916. Analisaremos a série 910 nesta análise. As novas unidades 910 são oferecidas em dois formatos e utilizam NAND 64D de 3 camadas, o que permite que as unidades tenham capacidades de até 16 TB. Essa densidade mais alta pode levar a racks mais densos ou consolidação de racks no data center.
Durante o evento Step Ahead em Pequim, a Memblaze lançou uma nova série de unidades 500 NVME, bem como uma expansão de sua linha 900 para 910 e 916. Analisaremos a série 910 nesta análise. As novas unidades 910 são oferecidas em dois formatos e utilizam NAND 64D de 3 camadas, o que permite que as unidades tenham capacidades de até 16 TB. Essa densidade mais alta pode levar a racks mais densos ou consolidação de racks no data center.
Além de alavancar 64 camadas para atingir capacidades mais altas, o Memblaze PBlaze5 910 apresenta desempenho superior ao dos modelos anteriores. A empresa afirma que a unidade pode atingir leituras sequenciais de até 3.5 GB/s e taxa de transferência de até 835 mil IOPS, ao mesmo tempo em que possui latência abaixo de um milissegundo. A unidade também vem com alta disponibilidade integrada, sendo de porta dupla, portanto, um único caminho de falha é removido. O 910 tem 1 DWPD de resistência, bem como dois milhões de horas de MTBF. Os casos de uso ideais incluem: banco de dados, pesquisa, indexação, CDN, nuvem e hiperescala, SDS, aprendizado profundo e análise de big data, ERP, SAP HANA, BOSS, serviços bancários, impostos, comércio de alta frequência e pagamento online.
Para esta revisão, veremos o 3.84 TB, U.2 do PBlaze5 910.
Especificações Memblaze PBlaze5 910 NVMe SSD
Fator de forma | U.2 | ||
Capacidade | 3.84TB | 7.68TB | 15.36TB |
NAND | eTLC 3D | ||
Interface | PCIe 3.0 x 4 | ||
Protocolo | NVMe 1.2a | ||
Desempenho | |||
Leitura sequencial (128 KB) | 3.5GB / s | 3.5GB / s | 3.3GB / s |
Gravação sequencial (128 KB) | 3.1GB / s | 3.5GB / s | 3.3GB / s |
Leitura aleatória sustentada (4 KB) | IOPS 835K | IOPS 830K | IOPS 826K |
Gravação aleatória sustentada (4 KB) | IOPS 99K | IOPS 135K | IOPS 150K |
Latência R/W | 87 / 12μs | ||
DWPD | 1 | ||
UBER | <10^-17 | ||
MTBF | 2 milhões de horas | ||
Consumo de energia | 7 ~ 25W |
Desempenho
Mesa de teste
Nossas análises de SSD corporativo utilizam um Lenovo ThinkSystem SR850 para testes de aplicativos e um Dell PowerEdge R740xd para benchmarks sintéticos. O ThinkSystem SR850 é uma plataforma quad-CPU bem equipada, oferecendo potência de CPU bem acima do necessário para enfatizar o armazenamento local de alto desempenho. Os testes sintéticos que não exigem muitos recursos da CPU usam o servidor de processador duplo mais tradicional. Em ambos os casos, a intenção é mostrar o armazenamento local da melhor maneira possível, de acordo com as especificações máximas de unidade do fornecedor de armazenamento.
Lenovo Think System SR850
- 4 x CPU Intel Platinum 8160 (2.1 GHz x 24 núcleos)
- 16 x 32GB DDR4-2666Mhz ECC DRAM
- 2 x placas RAID 930-8i 12 Gb/s
- 8 compartimentos NVMe
- VMware ESXI 6.5
Dell PowerEdge R740xd
- 2 x CPU Intel Gold 6130 (2.1 GHz x 16 núcleos)
- 16 x 16 GB DDR4-2666 MHz ECC DRAM
- 1 placa RAID PERC 730 2GB 12Gb/s
- Adaptador NVMe Complementar
- Ubuntu-16.04.3-desktop-amd64
Histórico de testes e comparáveis
A Laboratório de teste StorageReview Enterprise fornece uma arquitetura flexível para realizar benchmarks de dispositivos de armazenamento corporativo em um ambiente comparável ao que os administradores encontram em implantações reais. O Enterprise Test Lab incorpora uma variedade de servidores, redes, condicionamento de energia e outras infraestruturas de rede que permitem que nossa equipe estabeleça condições do mundo real para avaliar com precisão o desempenho durante nossas análises.
Incorporamos esses detalhes sobre o ambiente de laboratório e protocolos em revisões para que os profissionais de TI e os responsáveis pela aquisição de armazenamento possam entender as condições em que alcançamos os resultados a seguir. Nenhuma de nossas análises é paga ou supervisionada pelo fabricante do equipamento que estamos testando. Detalhes adicionais sobre o Laboratório de teste StorageReview Enterprise e uma visão geral de seus recursos de rede estão disponíveis nas respectivas páginas.
Comparáveis para esta revisão:
- Memblaze PBlaze5 3.2TB
- Membraze PBlaze4 3.2 TB
- Intel P3700 2 TB
- Intel P4500 2 TB
- HGST SN100 3.2 TB
- Toshiba PX04 1.6 TB
Análise de carga de trabalho do aplicativo
Para entender as características de desempenho dos dispositivos de armazenamento corporativo, é essencial modelar a infraestrutura e as cargas de trabalho de aplicativos encontradas em ambientes de produção ao vivo. Nossos benchmarks para o Memblaze PBlaze5 910 são, portanto, os Desempenho OLTP do MySQL via SysBench e Desempenho OLTP do Microsoft SQL Server com uma carga de trabalho TCP-C simulada. Para nossas cargas de trabalho de aplicativos, cada unidade executará de 2 a 4 VMs configuradas de forma idêntica.
Desempenho do SQL Server
Cada VM do SQL Server é configurada com dois vDisks: volume de 100 GB para inicialização e um volume de 500 GB para o banco de dados e arquivos de log. Do ponto de vista dos recursos do sistema, configuramos cada VM com 16 vCPUs, 64 GB de DRAM e aproveitamos o controlador LSI Logic SAS SCSI. Embora nossas cargas de trabalho Sysbench testadas anteriormente tenham saturado a plataforma tanto em E/S de armazenamento quanto em capacidade, o teste de SQL procura desempenho de latência.
Este teste usa o SQL Server 2014 em execução em VMs convidadas do Windows Server 2012 R2 e é enfatizado pelo Benchmark Factory para bancos de dados da Quest. StorageReview's Protocolo de teste OLTP do Microsoft SQL Server emprega o rascunho atual do Benchmark C (TPC-C) do Transaction Processing Performance Council, um benchmark de processamento de transações on-line que simula as atividades encontradas em ambientes de aplicativos complexos. O benchmark TPC-C chega mais perto do que os benchmarks sintéticos de desempenho para medir os pontos fortes de desempenho e os gargalos da infraestrutura de armazenamento em ambientes de banco de dados. Cada instância de nossa VM SQL Server para esta revisão usa um banco de dados SQL Server de 333 GB (escala 1,500) e mede o desempenho transacional e a latência sob uma carga de 15,000 usuários virtuais.
Configuração de teste do SQL Server (por VM)
- Windows Server 2012 R2
- Ocupação de armazenamento: 600 GB alocados, 500 GB usados
- SQL Server 2014
- Tamanho do banco de dados: escala 1,500
- Carga de cliente virtual: 15,000
- Memória RAM: 48 GB
- Duração do teste: 3 horas
- 2.5 horas de pré-condicionamento
- período de amostra de 30 minutos
Para nosso benchmark transacional do SQL Server, o Memblaze PBlaze5 910 U.2 ficou no final do pacote com 12,546.5 TPS, inferior a três outras unidades PBlaze.
Surpreendentemente, o 910 também teve a maior latência em 38.8ms.
Desempenho do Sysbench
O próximo benchmark de aplicativo consiste em um Banco de dados MySQL OLTP Percona medida via SysBench. Este teste mede o TPS (transações por segundo) médio, a latência média e também a latência média do 99º percentil.
Cada sysbench A VM é configurada com três vDisks: um para inicialização (~92 GB), um com o banco de dados pré-construído (~447 GB) e o terceiro para o banco de dados em teste (270 GB). Do ponto de vista dos recursos do sistema, configuramos cada VM com 16 vCPUs, 60 GB de DRAM e aproveitamos o controlador LSI Logic SAS SCSI.
Configuração de teste do Sysbench (por VM)
- CentOS 6.3 64 bits
- Percona XtraDB 5.5.30-rel30.1
- Tabelas de banco de dados: 100
- Tamanho do banco de dados: 10,000,000
- Segmentos de banco de dados: 32
- Memória RAM: 24 GB
- Duração do teste: 3 horas
- 2 horas de pré-condicionamento 32 tópicos
- 1 hora 32 tópicos
Com o benchmark transacional Sysbench, o U.2 910 se saiu melhor, atingindo 6,664.6 TPS, aterrissando no meio do pacote testado.
Com a latência média do Sysbench, o U.2 910 novamente se encontrou no meio do pelotão com uma latência de 19.2ms.
Nosso benchmark de latência de pior cenário viu o U.2 910 pousar novamente perto do meio com 37.8 ms.
Houdini por SideFX
O teste Houdini foi projetado especificamente para avaliar o desempenho do armazenamento no que se refere à renderização CGI. O banco de teste para esta aplicação é uma variante do núcleo Dell PowerEdge R740xd tipo de servidor que usamos no laboratório com duas CPUs Intel 6130 e DRAM de 64 GB. Nesse caso, instalamos o Ubuntu Desktop (ubuntu-16.04.3-desktop-amd64) executando bare metal. A saída do benchmark é medida em segundos para ser concluída, com menos sendo melhor.
A demonstração do Maelstrom representa uma seção do pipeline de renderização que destaca os recursos de desempenho do armazenamento, demonstrando sua capacidade de usar efetivamente o arquivo de troca como uma forma de memória estendida. O teste não grava os dados do resultado nem processa os pontos para isolar o efeito do tempo decorrido do impacto da latência no componente de armazenamento subjacente. O teste em si é composto por cinco fases, três das quais executamos como parte do benchmark, que são as seguintes:
- Carrega pontos compactados do disco. Este é o momento de ler do disco. Isso é de thread único, o que pode limitar a taxa de transferência geral.
- Descompacta os pontos em uma única matriz plana para permitir que sejam processados. Se os pontos não tiverem dependência de outros pontos, o conjunto de trabalho pode ser ajustado para permanecer no núcleo. Esta etapa é multiencadeada.
- (Não Executar) Processe os pontos.
- Reempacota-os em blocos agrupados adequados para armazenamento em disco. Esta etapa é multiencadeada.
- (Não executado) Grave os blocos agrupados de volta no disco.
Com o teste de Houdini, o 910 U.2 ficou do meio para a extremidade inferior, mas alinhado com outros produtos Memblaze com uma pontuação de 3,093.8 segundos.
Análise de Carga de Trabalho do VDBench
Quando se trata de dispositivos de armazenamento de comparação, o teste de aplicativo é o melhor e o teste sintético vem em segundo lugar. Embora não seja uma representação perfeita das cargas de trabalho reais, os testes sintéticos ajudam a estabelecer a linha de base dos dispositivos de armazenamento com um fator de repetibilidade que facilita a comparação entre soluções concorrentes. Essas cargas de trabalho oferecem uma variedade de perfis de teste diferentes, desde testes de "quatro cantos", testes comuns de tamanho de transferência de banco de dados até capturas de rastreamento de diferentes ambientes VDI. Todos esses testes utilizam o gerador de carga de trabalho vdBench comum, com um mecanismo de script para automatizar e capturar resultados em um grande cluster de teste de computação. Isso nos permite repetir as mesmas cargas de trabalho em uma ampla variedade de dispositivos de armazenamento, incluindo arrays flash e dispositivos de armazenamento individuais. Nosso processo de teste para esses benchmarks preenche toda a superfície da unidade com dados e, em seguida, particiona uma seção da unidade igual a 25% da capacidade da unidade para simular como a unidade pode responder às cargas de trabalho do aplicativo. Isso é diferente dos testes de entropia total, que usam 100% da unidade e os colocam em estado estacionário. Como resultado, esses números refletirão velocidades de gravação sustentadas mais altas.
perfis:
- Leitura aleatória em 4K: 100% de leitura, 128 threads, 0-120% de atualização
- Gravação aleatória em 4K: 100% de gravação, 64 threads, 0-120% de atualização
- Leitura sequencial de 64K: 100% de leitura, 16 threads, 0-120% iorado
- Gravação sequencial de 64K: 100% gravação, 8 threads, 0-120% iorado
- Banco de Dados Sintético: SQL e Oracle
- Clone completo de VDI e rastreamentos de clone vinculados
Em nossa primeira análise de carga de trabalho VDBench, leitura aleatória de 4K, o Memblaze PBlaze5 910 U.2 conseguiu ficar abaixo de 1 ms com um pico de 665,679 IOPS e uma latência de 191.3 μs, colocando a unidade aproximadamente no meio.
A gravação aleatória de 4K novamente apresentou latência abaixo de milissegundos. O 910 U.2 ficou em penúltimo lugar com um desempenho máximo de 296,639 IOPS e uma latência de 429.6 μs.
Mudando para cargas de trabalho sequenciais, o 910 U.2 mais uma vez ficou em penúltimo lugar em leituras sequenciais de 64K com uma pontuação máxima de 38,472 IOPS ou 2.4 GB/s com uma latência de 415.3 μs.
Permanecendo em penúltimo lugar, o 910 U.2 atingiu o pico com cerca de 18K IOPS ou 1.1GB/s em uma latência de aproximadamente 870μs na gravação sequencial de 64K.
Passando para as cargas de trabalho SQL, o 910 U.2 atingiu o pico de 243,228 IOPS com apenas 130.4 μs de latência, colocando a unidade em quarto lugar geral.
O SQL 90-10 viu o 910 manter o quarto lugar com uma pontuação máxima de 232,061 IOPS e uma latência de 136.5 μs.
Ainda em quarto lugar, o 910 U.2 atingiu o pico de 220,195 IOPS com latência de 144.6μs no benchmark SQL 80-20.
Com nossa carga de trabalho Oracle, o 910 U.2 continuou em quarto lugar com uma pontuação máxima de 212,052 IOPS e uma latência de 168.5 μs.
Para Oracle 90-10, o 910 U.2 passou para o terceiro lugar com um pico de 180,723 IOPS e uma latência de 121.1 μs.
No Oracle 80-20, o 910 quase empatou com o 900 em terceiro lugar, com desempenho máximo de 177,143 IOPS e latência de 123.5 μs.
Em seguida, passamos para nosso teste de clone VDI, Full and Linked. Para VDI Full Clone Boot, o 910 U.2 ficou em quarto lugar com desempenho máximo de 176,239 IOPS e latência de 197.9 μs.
O VDI FC Initial Login viu o 910 U.2 ainda em quarto lugar, mas muito atrás dos três principais drives com um desempenho máximo de 66,925 IOPS e uma latência de 445.1 μs.
Com o VDI FC Monday Login, o 910 U.2 terminou em quarto lugar com 67,309 IOPS e uma latência de 235.7μs.
Mudando para Linked Clone (LC), primeiro olhamos para o teste de inicialização. Aqui, o 910 U.2 ficou em quarto lugar com 83,210 IOPS e uma latência de 191.2μs.
O VDI LC Initial Login manteve o 910 U.2 estável em quarto lugar com 40,035 IOPS e uma latência de 197.4 μs.
Finalmente, o VDI LC Monday Login teve o pico de 910 U.2 em 45,349 IOPS e uma latência de 349μs para o quarto lugar novamente.
Conclusão
O Memblaze PBlaze5 910 é a nova unidade de data center NVMe da empresa que utiliza NAND 64D de 3 camadas. A unidade vem em dois formatos (U.2 para esta análise) e em capacidades de 3.84 TB, 7.68 TB e 15.36 TB. O Memblaze reivindica desempenho de até 3.5 GB/s de leitura, 3.5 GB/s de gravação e taxa de transferência de até 835 IOPS de leitura e 150 IOPS de gravação. A unidade atende aos critérios para uma infinidade de casos de uso e vem com opções de segurança, como criptografia de dados AES 256 e suporta a função TRIM de até 8 TB/s.
Observando o desempenho da análise de carga de trabalho do aplicativo, o 910 U.2 ficou em último lugar em nossos benchmarks do SQL Server com 12,546.5 TPS e uma latência média de 38.8 ms. No Sysbench, a unidade teve um desempenho um pouco melhor no meio do pacote com 6,664.6 TPS e latência média de 19.2 ms, e uma latência de pior cenário de 37.8 ms. Em nosso benchmark Houdini by SideFX, o 910 U.2 teve uma pontuação de 3,093.8 segundos, colocando-o na extremidade inferior do campo, mas alinhado com outros produtos Memblaze.
Para o VDBench, o Memblaze PBlaze5 910 U.2 apresentou latência abaixo de milissegundos em todos os testes. A unidade tendeu a cair do meio para o fundo do pacote em todos os testes. Os principais resultados incluem 666K IOPS na leitura de 4K, 297K IOPs na gravação de 4K, 2.4GB/s na leitura de 64K e 1.1GB/s na gravação de 64K. Os resultados do SQL mantiveram cerca de um quarto de milhão de IOPS com os testes Oracle rodando entre 177K IOPS e 212K IOPS.
No geral, deu bom desempenho, mas o desempenho começou a cair em comparação com a geração anterior PBlaze5 900.
Inscreva-se no boletim informativo StorageReview