Em março do ano passado, a Micron anunciou um novo fator de forma de 2.5" para seu Placa aceleradora de aplicativos P320h. As placas PCIe têm sido o padrão de fato para qualquer empresa que busca obter o máximo de capacidade de resposta de seu armazenamento. No entanto, o fator de forma sofre de problemas que não incomodam os fatores de forma tradicionais de 2.5" e 3.5", como capacidade de troca a quente. Raramente é prático desligar um servidor e removê-lo de um rack para fazer a manutenção do armazenamento interno. Portanto, o fator de forma PCIe de 2.5" permite a velocidade que a interface PCIe pode oferecer, com a capacidade de manutenção que as unidades padrão oferecem. suporte de servidor para as novas unidades em muitos de seus servidores PowerEdge de 12ª geração. Os servidores Dell, como o nosso Dell PowerEdge R720 12G com Express Flash (marca da Dell de 2.5" PCIe), oferece até quatro unidades P2.5h de 320" acessíveis por acesso padrão na frente do servidor por meio de um backplane especializado.
Em março do ano passado, a Micron anunciou um novo fator de forma de 2.5" para seu Placa aceleradora de aplicativos P320h. As placas PCIe têm sido o padrão de fato para qualquer empresa que busca obter o máximo de capacidade de resposta de seu armazenamento. No entanto, o fator de forma sofre de problemas que não incomodam os fatores de forma tradicionais de 2.5" e 3.5", como capacidade de troca a quente. Raramente é prático desligar um servidor e removê-lo de um rack para fazer a manutenção do armazenamento interno. Portanto, o fator de forma PCIe de 2.5" permite a velocidade que a interface PCIe pode oferecer, com a capacidade de manutenção que as unidades padrão oferecem. suporte de servidor para as novas unidades em muitos de seus servidores PowerEdge de 12ª geração. Os servidores Dell, como o nosso Dell PowerEdge R720 12G com Express Flash (marca da Dell de 2.5" PCIe), oferece até quatro unidades P2.5h de 320" acessíveis por acesso padrão na frente do servidor por meio de um backplane especializado.
Como as unidades PCIe de 2.5" são essencialmente versões reduzidas pela metade dos irmãos maiores, as capacidades são reduzidas de acordo. A Micron e a Dell oferecem as unidades com capacidades de 175 GB e 350 GB para até 1.2 TB ocupando todos os quatro slots em um servidor PowerEdge 12G. Curiosamente, o o desempenho das unidades não é cortado exatamente pela metade, embora sejam 4 pistas em vez de 8 pistas em cartões de tamanho completo. Ambas as capacidades oferecem IOPS de leitura aleatória na faixa de 415,000, em comparação com 785,000 no cartão de tamanho completo e sequencial a taxa de transferência de leitura é de até 1.75 Gb/s, em comparação com 3.2 Gb/s.
Embora os servidores possam obter o desempenho do flash PCIe na frente do sistema, há um pouco de comprometimento. O backplane ocupa o espaço geralmente dedicado ao segundo lote de 8 baias de unidade de 2.5" comumente encontradas em um servidor 2U, por exemplo. Portanto, no caso de 2U, um servidor pode ser configurado com até quatro unidades flash P2.5h de 320" e até para 8 baias de unidade padrão de 2.5". A outra preocupação potencial óbvia é que essas unidades não podem ser configuradas em um RAID de hardware devido à interface. No entanto, elas podem ser colocadas em RAID de software.
De sua parte, a Dell aborda esses problemas de algumas maneiras. Em primeiro lugar, compensações como quantidade de compartimentos de unidade ou capacidade geral são geralmente aceitas por aqueles que implantam essa plataforma, pois sua preocupação é mais em direcionar um certo nível de desempenho de armazenamento para aplicativos enquanto obtém o benefício adicional de manutenção. Para aqueles que têm bancos de dados muito grandes para um único P2.5h de 320" lidar e o RAID de software não é viável, a Dell lançou software Fluid Cache, que pode permitir que a(s) unidade(s) P2.5h de 320" acelerem discos rígidos de maior capacidade em outras baias. hardware para oferecer algo que de outra forma não existe no mercado de servidores.
Nesta revisão, nossa configuração inclui um Dell R720 com todos os quatro slots Express Flash preenchidos com unidades Micron P350h de 2.5 GB e 320".
Especificações PCIe Micron P320h 2.5"
- Capacidades
- 175 GB (MTFDGAL175SAH-1N3AB)
- 350 GB (MTFDGAL350SAH-1N3AB)
- Mícron SLC NAND (34 nm)
- Interface: x4 PCIe Gen2
- Conector: combinação SATA/SAS/PCIe
- Tecnologia Micron RAIN (matriz redundante de NAND independente)
- Suporte ao conjunto de comandos de tecnologia de automonitoramento, análise e relatório (SMART)
- Desempenho
- Desempenho sequencial de leitura/gravação: até 1.75/1.1 GB/s
- Desempenho aleatório de leitura/gravação: até 415,000/145,000 IOPS
- Latência: <50μs
- Energia
- Consumo de energia ativa: 25W (máx.)
- Consumo de energia inativo/espera/suspensão (média): 6.5 W
- Temperatura de operação: 0C- 70C - suporte de estrangulamento de temperatura
- Choque e vibração
- Choque: 400G a 2.0ms
- Vibração: 3.1 Grms, 5–500 Hz, 30 minutos por eixo
- Taxa de erro de bit incorrigível: <1 setor por 1017 pouco lido
- MTTF: 2 milhão de horas de dispositivo
- Resistência – Vida útil da unidade: 12.5 PB (175 GB), 25 PB (350 GB)
- Suporte a servidores Dell – painel traseiro PowerEdge 12G com suporte para até quatro unidades
- Dimensões (AxLxL): 15 x 69.85 x 100.5 mm
- Peso: 172g (175GB), 175g (350GB)
Design e Construção
Pensando no P2.5h de 320" da Micron, é essencialmente como se a Micron cortasse um PCIe P320h padrão pela metade e o reembalasse no formato de 15 mm 2.5". Da superfície, a maioria das pessoas nunca notaria; até mesmo a porta se parece bastante com uma interface SAS padrão. A mágica, porém, está no backplane especializado, como podemos ver no R720 abaixo.
O backplane especializado suporta até quatro unidades P2.5h de 320" conectadas a uma placa de expansão PCIe na parte traseira do servidor. O layout dentro do R720 é limpo e de fácil manutenção. Na verdade, a Dell confirmou que o backplane, a placa o cabeamento pode ser atualizado à medida que o armazenamento evolui, ou seja, para NVMe. A flexibilidade da plataforma é atraente para os primeiros usuários que desejam migrar seu armazenamento para o que há de melhor e mais recente.
À medida que examinamos as próprias unidades individuais, a caixa é construída em alumínio sólido e sua cor cinza tem uma aparência industrial duradoura. A tampa superior apresenta uma etiqueta de informações do produto Dell que contém todas as informações relevantes (capacidade, modelo, etc.). Os perfis laterais mostram os quatro orifícios de parafuso que permitem que a unidade seja montada em caddies de unidade hot-swap. Movendo-se para a parte traseira da unidade, há um conector Express Bay SFF-8639, que é semelhante a um conector SAS ou SATA, mas também carrega sinal x4 PCIe.
A parte inferior do gabinete é estriada para ajudar no resfriamento passivo do drive e, com o drive desmontado, podemos ver que a parte interna da parte inferior do gabinete é forrada com várias almofadas térmicas. Essas almofadas térmicas puxam o calor que então se dissipa através da caixa.
Dentro do Micron P2.5h de 320" há um controlador Micron/IDT ASIC personalizado de 16 canais, semelhante ao usado no HHHL Micron P320h de tamanho normal, mas com metade dos canais de memória. A Micron também fornece os pacotes NAND que são distribuídos em dois PCBs, totalizando 512 GB que é superprovisionado para 350 GB utilizáveis.
O PCB superior inclui o conector, o controlador e os pacotes DRAM e 8 NAND. O PCB inferior tem um layout simplificado com 12 pacotes NAND alinhados no centro de um lado e 12 do outro. Ele também abriga dois conectores em cada lado do PCB para conectar ambas as placas filhas.
Fundo de teste
Usamos nosso Dell PowerEdge R720 12G como plataforma de teste para o Micron P2.5h de 320", pois ele veio equipado com a configuração Express Flash da Dell que utiliza o Micron SSD. Nosso sistema de teste foi configurado com o seguinte hardware:
- 2 x Intel Xeon E5-2640 (2.6 GHz, 15 MB de cache, 6 núcleos)
- Chipset Intel C602
- Memória – 192GB (24 x 8GB) 1333Mhz DDR3 RDIMMs registrados
- CentOS 6.3 64 bits
- 8 x 300 GB Seagate Savvio 15K.3 em RAID10 para inicialização
Análise de desempenho de aplicativos
No mercado corporativo, há uma grande diferença entre o desempenho dos produtos no papel e o desempenho em um ambiente de produção. Na StorageReview, entendemos a importância de expandir para o teste de aplicativos, com nosso primeiro teste sendo nosso Benchmark de Armazenamento de Banco de Dados NoSQL MarkLogic. Embora os testes sintéticos continuem a ser uma parte importante de nossas revisões, planejamos expandir nossos testes de aplicativos para cobrir uma ampla variedade de áreas, incluindo desempenho de VDI, geração de carga de VM, testes de desempenho de banco de dados expandidos e muitas outras áreas.
Em nosso ambiente de banco de dados MarkLogic NoSQL, testamos grupos de quatro SSDs SATA ou SAS, soluções PCIe únicas de tamanho completo com uma capacidade utilizável maior ou igual a 200 GB. Como nosso Dell PowerEdge R720 12G veio equipado com quatro SSDs Express Flash, aproveitamos todos eles em nosso teste MarkLogic, dedicando um por cluster de banco de dados. Nosso banco de dados NoSQL requer aproximadamente 650 GB de espaço livre para trabalhar, dividido igualmente entre quatro nós de banco de dados. Em nosso ambiente de teste, usamos um host SCST (como o R720) e apresentamos cada SSD individual em JBOD, com um alocado por nó de banco de dados. O teste se repete em 24 intervalos, exigindo entre 30-36 horas no total para os SSDs nesta categoria. Medindo as latências internas vistas pelo software MarkLogic, registramos a latência média total e a latência de intervalo para cada SSD.
O Dell PowerEdge R720 12G é o primeiro servidor no segmento de computação que executamos no teste MarkLogic NoSQL que oferece flash de alto desempenho de fábrica. Ele obteve uma média de latência geral de 1.239 ms, o que foi excelente, ocupando o primeiro lugar em nossa classificação geral.
Observando a latência média geral em cada área que medimos, registramos picos de até 16ms, com a maioria dos picos medindo entre 3-11ms.
Análise de Carga de Trabalho Sintética Corporativa
O desempenho do flash varia durante a fase de pré-condicionamento de cada dispositivo de armazenamento. Nosso processo de benchmark de armazenamento corporativo começa com uma análise do desempenho da unidade durante uma fase completa de pré-condicionamento. Cada uma das unidades comparáveis é apagada com segurança usando as ferramentas do fornecedor, pré-condicionadas em estado estacionário com a mesma carga de trabalho com a qual o dispositivo será testado sob uma carga pesada de 16 threads com uma fila pendente de 16 por thread e, em seguida, testado em intervalos definidos em vários perfis de profundidade de encadeamento/fila para mostrar o desempenho sob uso leve e pesado.
Testes de pré-condicionamento e estado estacionário primário:
- Rendimento (Agregado de IOPS de Leitura+Gravação)
- Latência média (latência de leitura+gravação calculada em conjunto)
- Latência máxima (latência máxima de leitura ou gravação)
- Desvio padrão de latência (desvio padrão de leitura + gravação calculado em conjunto)
Nossa Enterprise Synthetic Workload Analysis inclui quatro perfis baseados em tarefas do mundo real. Esses perfis foram desenvolvidos para facilitar a comparação com nossos benchmarks anteriores, bem como valores amplamente publicados, como velocidade máxima de leitura e gravação de 4K e 8K 70/30, que é comumente usado para unidades corporativas. Também incluímos duas cargas de trabalho mistas herdadas, o servidor de arquivos tradicional e o servidor da Web, cada um oferecendo uma ampla combinação de tamanhos de transferência.
- 4k
- 100% de leitura ou 100% de gravação
- 100% 4K
- 8k 70/30
- 70% de leitura, 30% de gravação
- 100% 8K
- 128k (Sequencial)
- 100% de leitura ou 100% de gravação
- 100% 128K
- Servidor de arquivos
- 80% de leitura, 20% de gravação
- 10% 512b, 5% 1k, 5% 2k, 60% 4k, 2% 8k, 4% 16k, 4% 32k, 10% 64k
- webserver
- 100% lido
- 22% 512b, 15% 1k, 8% 2k, 23% 4k, 15% 8k, 2% 16k, 6% 32k, 7% 64k, 1% 128k, 1% 512k
Nosso primeiro teste é o teste de 128k, que é um teste sequencial de blocos grandes que mostra a maior velocidade de transferência sequencial. Observando o desempenho de 128k para 100% de gravação e 100% de atividade de leitura, o Micron P320h x 4 alcançou 6.88 GB/s de leitura e 4.7 GB/s de gravação.
Em nossa próxima carga de trabalho corporativa, veremos um perfil de pré-condicionamento de gravação 4k totalmente aleatório com uma carga de trabalho excepcional de 16T/16Q. O Micron P320h x 4 mediu uma velocidade de pico de 1.1 milhão de IOPS, que se estabilizou em pouco menos de 600,000 IOPS. O único P320h mediu quase as mesmas velocidades em escala.
Em nossa carga de trabalho 4T/16Q de gravação aleatória de 16k de pré-condicionamento, o Micron P320h variou de 0.9 a 1.7 ms em rajada a 1.8 ms em estado estacionário.
Olhando para a latência máxima em nossa carga de trabalho de pré-condicionamento de 4k, o Micron P320h teve tempos de resposta de pico começando em 70-175ms em rajada, que aumentou para 60-200ms quando se aproximou do estado estacionário.
Comparando o desvio padrão da latência, o Micron P320h x 1 escalado para picos mais baixos do que o Micron P320h x 4, mas mesmo o pico mais alto foi de apenas cerca de 1.3 ms.
Depois que nosso período de pré-condicionamento de 6 horas terminou no Micron P320h x 4, seu desempenho 4k de leitura aleatória em estado estacionário mediu um pico de quase 1.65 milhão de IOPS com uma velocidade de gravação de 571,173 IOPS. O Micron P320h x 1 mostra desempenho quase idêntico em escala.
Comparando a latência média com uma carga de trabalho pesada de 16T/16Q com 100% de atividade de leitura aleatória de 4k, o Micron P320h x 4 mediu 0.62ms na atividade de leitura e 1.79ms na atividade de gravação – quase o mesmo que o Micron P320h x 1.
Ao comparar a latência máxima em nosso teste de estado estacionário de 4k, o Micron P320h x 4 teve uma latência de leitura de pico de 115.9ms e uma latência de gravação de pico de 27.3ms. O Micron P320h x 1 teve melhor desempenho com latência de leitura de pico de 45.4 ms e latência de gravação de pico de 6.2 ms.
Olhando para o desvio padrão de latência, o Micron P320h x 1 forneceu um pouco mais de consistência de latência na atividade de leitura e gravação.
Nosso próximo teste muda para uma carga de trabalho mista de 8K 70/30, na qual o Micron P320h x 4 apresentou velocidades de pico de até 900,000 IOPS antes de nivelar para cerca de 480,000 IOPS em estado estacionário. Mais uma vez, o Micron P320h x 1 igualou o desempenho em escala.
Comparando a latência média em nossa carga de trabalho de pré-condicionamento 8k 70/30 16T/16Q, o Micron P320h x 1 e x 4 ofereceu latência de pico entre 2.0-1.2 ms, que aumentou para 2.2 ms próximo ao estado estável.
Com uma carga de trabalho de 8k 70/30, a latência de pico do Micron P320h x 4 variou de 25-130ms durante o burst a 40-80ms quando se aproximou do estado estacionário.
Comparando a consistência de latência em nossa carga de trabalho de pré-condicionamento de 8k 70/30, o Micron P320h x 4 apresentou um desvio padrão ligeiramente maior do que o Micron P320h x 1.
Em comparação com a carga de trabalho fixa de 16 encadeamentos e 16 filas que executamos no teste de gravação 100% 4K, nossos perfis de carga de trabalho mistos dimensionam o desempenho em uma ampla variedade de combinações de encadeamento/fila. Nesses testes, expandimos nossa intensidade de carga de trabalho de 2 threads e 2 filas até 16 threads e 16 filas. Em nosso teste 8K 70/30 expandido, o Micron P320h x 4 escalado de 150,000 a 450,000 IOPS com IOPS mais alto começando em 2T/16Q. O Micron P320h x 1 dimensionado de forma semelhante em escala.
No segmento de latência média escalado de nosso teste 8k 70/30, o Micron P320h foi escalado de 0.15ms em 2T/2T e aumentou para 1.9-2.2ms em 16T/16T.
A latência máxima em nosso teste principal de 8k 70/30 foi medida mais alto no Micron P320h x 4 começando em 8T16Q, com uma faixa geral de 12-78ms em tempos de resposta de pico.
A consistência da latência do Micron P320h x 4 e do Micron P320h x 1 foi semelhante, exceto por um pico que atingiu apenas 0.87ms para o Micron P320h x 4.
A carga de trabalho do servidor de arquivos representa um espectro de tamanho de transferência maior atingindo cada dispositivo específico, portanto, em vez de se acomodar para uma carga de trabalho estática de 4k ou 8k, a unidade deve lidar com solicitações que variam de 512b a 64k. Nesta carga de trabalho, o Micron P320h x 4 ofereceu uma velocidade de pico de 300-365,000 IOPS e, quando se aproximou do estado estacionário, atingiu cerca de 280,000 IOPS.
Em uma carga de trabalho baixa em nosso teste de pré-condicionamento do servidor de arquivos, a latência média mediu 2.8-3.3 ms, que aumentou ligeiramente durante o teste para 3.6 ms.
Durante o estágio de pré-condicionamento de nosso teste de servidor de arquivos, os tempos de resposta de pico do Micron P320h x 4 variaram de 7 a 35 ms no modo burst e aumentaram para 12 a 70 ms conforme se aproximava do estado estável.
Avaliando a consistência da latência, no modo burst, o Micron P320h x 4 e o Micron P320h x 1 tiveram um desvio padrão de latência quase idêntico.
Depois que o processo de pré-condicionamento do servidor de arquivos foi concluído com uma carga constante de 16T/16Q, passamos aos nossos testes principais, que medem o desempenho em níveis definidos entre 2T/2T e 16T/16Q. Em nossa principal carga de trabalho do servidor de arquivos, o Micron P320h x 4 variou de cerca de 115,000 IOPS em 2T/2T a 280,000 IOPS em 16T/16T. O Micron P320h x 1 teve marcas semelhantes em escala.
A latência média do Micron P320h x 4 variou de 0.52-0.53 em 2T/2T a 2.75-3.60ms em 16T/16T.
Comparando a latência máxima, o Micron P320h x 4 teve alguns picos que impediram seu desempenho de igualar o Micron P320h x 1 com um tempo de pico de 990 ms.
Passando da latência de pico para o desvio padrão da latência, o Micron P320h x 4 e o Micron P320h x 1 tiveram um desempenho quase idêntico.
Em nossa última carga de trabalho sintética cobrindo um perfil de servidor Web, que é tradicionalmente um teste de leitura 100%, aplicamos atividade de gravação 100% para pré-condicionar totalmente cada unidade antes de nossos testes principais. Sob este teste de pré-condicionamento estressante, o Micron P320h x 4 teve velocidades de pico medindo entre 110,000-190,000 IOPS, embora, ao se aproximar do desempenho estável, os números estivessem em torno de 77,000-80,000 IOPS.
A latência média em nosso estressante teste de pré-condicionamento do servidor Web começou em 5-10 ms em rajada, aumentando para 12.5 ms conforme o Micron P320h se aproximava do estado estacionário.
À medida que o Micron P320h x 4 se aproximava do estado estacionário, seus tempos de resposta de pico variavam entre 40-55ms.
A consistência de latência do Micron P320h foi reduzida à medida que a unidade se aproximava das condições de estado estável, mantendo-se em torno de 2.5 ms.
Mudando para o segmento principal de nosso teste de servidor da Web com um perfil de leitura de 100%, o Micron P320h x 4 teve escala de desempenho de 125,000 a 365,000 IOPS. Em comparação com o Micron P320h x 1, esses números correspondem à escala.
Em nosso teste principal de servidor da Web de leitura pesada, o Micron P320h ofereceu uma escala de latência média de 0.2ms em 2T/2T até 2.2-2.8ms em 16T/16T.
O Micron P320h x 4 escalou mais alto em tempos de resposta de pico começando em 16T4Q em comparação com o Micron P320h. Latência máxima medida entre 2-23ms ao longo da carga de trabalho.
Mudando para consistência de latência, o Micron P320h ofereceu desvio padrão de latência variando de 0.1-0.68ms.
Conclusão
O acelerador de aplicativos Micron P2.5h PCIe de 320" é interessante por uma longa lista de razões. No topo da lista, porém, está o potencial de desempenho do armazenamento flash PCIe e reduzi-lo a um fator de forma frontal de fácil manutenção. Micron é o primeiro a colocar esse fator de forma no mercado e a Dell é a primeira a adotá-lo, com um design inovador de backplane de servidor compatível com muitos servidores R720 12G. Embora a plataforma obrigue os usuários a desistir de quatro baias de unidade, para o mercado esse tipo de armazenamento é direcionado pois, provavelmente é uma troca aceitável. Isso certamente não é e não deve ser interpretado como um jogo de mercado de massa, é quase o mais nicho possível para servidores. Mas para aqueles com bancos de dados menores ou bancos de dados maiores que podem se beneficiar do Fluid Cache, o novo design atende perfeitamente a certas necessidades.
A configuração Express Flash do PowerEdge 720 12G, quando equipado com quatro SSDs, é facilmente a plataforma de armazenamento mais rápida que testamos até hoje, obtendo as melhores notas em todos os nossos benchmarks de armazenamento. Em termos de largura de banda bruta, quatro dos SSDs Micron P2.5h de 320" são capazes de fornecer leitura de 6.9 GB/s e gravação de 4.7 GB/s com cargas sequenciais. Mude para a taxa de transferência de E/S aleatória máxima com transferências de 4K e o sistema não terá problemas gerenciando leitura de 1.6 milhão de IOPS e gravação de 571 mil IOPS em estado estacionário. Ao olhar para nossa carga de trabalho de 8k 70/30, o R720 nivela em 480,000 IOPS em estado estacionário, o que mesmo para os padrões PCIe Application Accelerator de tamanho completo requer dois ou mais para atender ou exceder o dos líderes de classe no espaço.
Não é sempre que um determinado servidor ou produto de armazenamento pode afirmar ser o mais rápido do setor, mas a Dell e a Micron trabalharam juntas para fazer exatamente isso. Nosso R720 emparelhado com quatro unidades flash P2.5h de 320" apresenta pontuações que excedem qualquer placa PCIe no mercado e tinha suporte de driver que permitia que o desempenho agregado aumentasse muito bem. Para melhorar essas unidades com armazenamento em computação, seriam necessários pelo menos dois placas PCIe padrão e, dependendo do conjunto de drivers, podem não oferecer desempenho que também pode ser dimensionado. Além disso, essa plataforma pode ser atendida pela frente, possibilitando alterações de configuração sem interrupções.
Vantagens
- Melhor desempenho possível em uma baia de 2.5"
- Largura de banda e desempenho de E/S na faixa de arrays totalmente flash dedicados
- Fácil manutenção com recursos hot-swap
Desvantagens
- Deve trocar 8 compartimentos tradicionais de 2.5" por 4 compartimentos Express Flash
ponto de partida
A combinação de servidores Dell e o Micron P2.5h de 320" oferece uma solução de armazenamento verdadeiramente exclusiva que fornece o armazenamento mais rápido possível no fator de forma de 2.5". Para usuários que desejam o desempenho que o PCIe oferece e a capacidade de manutenção de unidades padrão montadas na frente, esta solução tem um tremendo potencial.