Nós, da comunidade de TI, frequentemente somos obcecados por cavalos de exposição — os dispositivos ou sistemas mais rápidos e/ou mais poderosos — porque adoramos os números grandes e pequenos que eles exibem. A realidade, porém, é que a maioria dos usuários simplesmente não precisa do poder ostensivo dos cavalos de exposição. Eles precisam burros de carga, sistemas que podem atender cargas de trabalho reais no dia a dia a um preço acessível. Passamos um bom tempo analisando as ofertas de infraestrutura hiperconvergente (HCI) da DataON e até demos DataON HCI-224 com SSDs Intel® Optane™, nossa escolha do editor prêmio no ano passado. Neste artigo, veremos outro cluster de dois nós HCI-224. No entanto, este apresenta uma combinação única de armazenamento: SSDs Intel Optane front-end Intel® SSD D5-P4326 15.36 TB com QLC 3D NAND, criando um sistema que otimiza capacidade, desempenho e custo.
Nós, da comunidade de TI, frequentemente somos obcecados por cavalos de exposição — os dispositivos ou sistemas mais rápidos e/ou mais poderosos — porque adoramos os números grandes e pequenos que eles exibem. A realidade, porém, é que a maioria dos usuários simplesmente não precisa do poder ostensivo dos cavalos de exposição. Eles precisam burros de carga, sistemas que podem atender cargas de trabalho reais no dia a dia a um preço acessível. Passamos um bom tempo analisando as ofertas de infraestrutura hiperconvergente (HCI) da DataON e até demos DataON HCI-224 com SSDs Intel® Optane™, nossa escolha do editor prêmio no ano passado. Neste artigo, veremos outro cluster de dois nós HCI-224. No entanto, este apresenta uma combinação única de armazenamento: SSDs Intel Optane front-end Intel® SSD D5-P4326 15.36 TB com QLC 3D NAND, criando um sistema que otimiza capacidade, desempenho e custo.
Antes de mergulhar neste cluster, no entanto, primeiro discutiremos por que a DataON optou pela QLC para seu nível de capacidade de armazenamento e forneceremos uma revisão de HCI de pilha do Microsoft Azure, DataON e clusters HCI de dois nós.
SSD Intel® série D5-P4326
Usar o Intel SSD D5-P4326 baseado em QLC para armazenamento de capacidade neste cluster HCI é uma escolha lógica, pois oferece desempenho sólido, confiável e econômico. Vimos SSDs mais rápidos, com certeza, mas o SSD D5-P4326 encontra o equilíbrio certo entre desempenho e custo, com uma enorme capacidade de 15.36 TB por unidade. Essa combinação se deve à sua arquitetura subjacente. Usando a tecnologia Intel® QLC 3D NAND, a Intel é capaz de reduzir o custo deste dispositivo, ao mesmo tempo em que aumenta sua capacidade.
A Intel foi um dos primeiros fornecedores de armazenamento a fabricar unidades baseadas em QLC. A tecnologia QLC ou célula de nível quádruplo armazena quatro bits de dados em uma única célula, enquanto a tecnologia mais antiga, como TLC, MLC e SLC, armazena apenas três, dois ou um(s) bit(s) por célula. Devido ao armazenamento de maior densidade do QLC, eles podem ter um custo menor por GB de armazenamento. Além disso, a tecnologia 3D NAND da Intel permite que essas células sejam empilhadas horizontalmente no chip, aumentando ainda mais a densidade de armazenamento.
Há um compromisso embora. Para aproveitar efetivamente o SSD Intel D5-P4326, as cargas de trabalho de gravação precisam ser armazenadas em buffer antes de ir para a unidade baseada em QLC. Os SSDs QLC são ideais para cargas de trabalho pesadas e com capacidade otimizada de leitura. Como tal, plataformas como um cluster HCI precisam usar um dispositivo de cache apropriado na frente dos SSDs QLC para oferecer desempenho uniforme. No caso do DataON HCI-224, quatro unidades Intel Optane SSD DC P4800X NVMe 750GB de 2.5” são usadas por nó para absorver as gravações antes de mover os dados para a camada QLC. Essa abordagem evita que gravações excessivas causem degradação do desempenho da camada QLC. O resultado líquido é que os clientes obtêm uma experiência perfeita e uma combinação ideal de desempenho baseado em Intel Optane com capacidade baseada em QLC.
HCI de pilha do Microsoft Azure
Resumidamente, o Microsoft Azure Stack HCI é uma implementação local do Microsoft Azure Cloud Services. Basicamente, a Microsoft trouxe sua tecnologia HCI existente para a família Azure Stack para que seus clientes possam executar aplicativos virtualizados no local com acesso direto aos serviços de gerenciamento do Azure, como backup e recuperação de desastres.
Azure Stack HCI não deve ser confundido com Azure ou Azure Stack Hub. Enquanto o Azure é um serviço de nuvem pública, Azure Stack Hub e Azure Stack HCI são soluções locais. Além disso, Azure Stack Hub executa Azure OS com Azure Services e é uma solução IaaS e PaaS. O Azure Stack HCI, por outro lado, executa o sistema operacional Windows Server com Azure Services e permite que você execute cargas de trabalho virtualizadas da mesma maneira que está acostumado, com o benefício adicional de poder se conectar à nuvem do Azure para serviços adicionais. Essa é uma grande diferença e permite que os administradores de TI usem as mesmas ferramentas e pilha de gerenciamento no Azure Stack HCI que usam com o Azure.
O Azure Stack HCI usa Hyper-V para seu hipervisor, Espaços de Armazenamento Diretos para armazenamento, Rede Definida por Software (SDN) da Microsoft para rede e Windows Admin Center (WAC) para seu gerenciamento. O Azure Stack HCI é executado em servidores x86 padrão e outros componentes básicos.
O WAC é uma plataforma de gerenciamento baseada em navegador implantada localmente que pode gerenciar instâncias locais e baseadas em nuvem do Azure do Windows 10 e do Windows Server. O WAC é instalado em um sistema Windows e usa scripts do PowerShell. Ele também usa o Microsoft Windows Management Framework (WMF) sobre WinRM (Windows Remote Management) para monitorar e gerenciar sistemas Windows, incluindo clusters HCI e máquinas virtuais do Azure.
O painel principal do WAC fornece uma visão geral da CPU, memória, rede e atividade de disco para os sistemas que estão sendo monitorados. No lado esquerdo da tela, o WAC também inclui várias ferramentas de gerenciamento e navegação do sistema, incluindo Certificados, Dispositivos, Eventos, Arquivos, Usuários e Grupos Locais, Firewall, Processos, Registro, Funções e Recursos, Serviços e Armazenamento.
A DataON foi uma das primeiras empresas a aproveitar a estrutura aberta do WAC e portou sua extensão Management Utility Software Tool (MUST) para o WAC. O DataON MUST fornece visibilidade, monitoramento e gerenciamento de infraestrutura para HCI, rede e armazenamento baseados em servidor Windows.
DadosON HCI
Embora o Azure Stack HCI use componentes de hardware de commodities, esses itens devem ser projetados para trabalhar juntos a fim de fornecer resultados ideais. De certa forma, é mais fácil projetar sistemas de alto desempenho do que sistemas robustos. Com sistemas de alto desempenho, você pode selecionar os melhores componentes e ignorar o custo. Mas com burros de carga, você precisa avaliar o custo/desempenho dos componentes e depois ajustá-los para otimizar seu desempenho. É preciso tanto - se não mais - esforço de engenharia para entregar um sistema orientado a valor, e esse sistema a engenharia é onde continuamos impressionados com o DataON.
A DataON tem uma forte parceria com a Microsoft e a Intel, e eles capitalizaram esses relacionamentos ao projetar sistemas para o Azure Stack HCI. As soluções HCI Intel Select da DataON podem ser pré-configuradas e enviadas em seu próprio rack, prontas para implantação imediata. Esse método de entrega não é útil apenas no datacenter, mas também se mostra benéfico para sistemas implantados na borda, onde a infraestrutura e o pessoal de TI existentes são limitados ou inexistentes.
Clusters HCI de 2 nós
Recentemente fizemos um artigo sobre clusters de nós do Microsoft Azure Stack HCI 2 (2NC). Abaixo está um resumo desse artigo. Descobrimos que um 2NC poderia, para muitos casos de uso, fornecer a resiliência necessária para uma organização e que 2NCs são menos complexos e caros do que um cluster tradicional de três ou quatro nós. A DataON foi um dos primeiros fornecedores a reconhecer o valor e adotar a integração de 2NCs. Mas os 2NCs não são novidade para a DataON, pois em setembro de 2017, a DataON anunciou os dois primeiros disponíveis comercialmente Kepler-47HCI para sistemas Windows Server 2016 Storage Spaces Direct (agora Azure Stack HCI).
A implementação 2NC do DataON oferece suporte a uma falha de unidade e falha de servidor ao mesmo tempo. Ele faz isso usando RAID 5 + 1 para fazer resiliência de paridade e espelhar isso para o outro servidor. A Microsoft chama essa capacidade de “resiliência aninhada” e adicionou essa capacidade aos espaços de armazenamento diretos no Windows Server 2019. Novamente, 2NC não é a escolha de tecnologia certa para todos, mas pode fornecer uma solução confiável e econômica para muitas organizações.
Construir e projetar
O cluster Azure Stack HCI com o qual estamos trabalhando aqui foi criado na plataforma DataON HCI-224 all-flash NVMe. Esses servidores tinham tamanho de 2U com baias de 24 NVMe na frente, oferecendo bastante expansão na parte traseira para componentes baseados em PCIe. A rotulagem era alta em contraste com os caddies de unidade pretos foscos, facilitando a localização de unidades específicas em caso de troca necessária. Tudo estava rotulado, o que não é incomum, mas a extensão da rotulagem era extraordinária. Nossa implantação teve cada nó rotulado (1 e 2), além de vários outros itens, facilitando a implantação e o gerenciamento dos sistemas DataON no datacenter.
Os nós neste teste incluíram dual 2nd Gen Intel® Xeon® Scalable Gold 6248 2.5 GHz, 20-Core, 28 MB Cache, bem como oito Samsung 32GB DDR4 2933MHz ECC-Registered RDIMMs (total de 256GB por nó) e duas unidades de inicialização Intel S4510 480GB SATA M.2.
Para armazenamento, cada nó veio com quatro unidades SSD Intel Optane SSD DC P4800X NVMe 750 GB de 2.5" (usadas para armazenamento em cache) e quatro unidades QLC Intel SSD D5-P4326 de 15.36 TB e 2.5" (nível de armazenamento de capacidade).
Os nós foram conectados uns aos outros por meio de cartões Mellanox ConnectX-4 EN de porta dupla QSFP28 40/56 GbE usando cabos de cobre passivos 3M Mellanox LinkX ETH 40GbE, 40Gb/s, QSFP.
Obviamente, a DataON gastou bastante tempo e pensou com relação à configuração e seleção de componentes para este sistema para equilibrar desempenho e custo. Estávamos muito interessados em ver como os SSDs Intel SSD D5-P4326 funcionariam como nível de armazenamento. Ao combinar SSDs Intel Optane e SSDs Intel QLC 3D NAND, os SSDs D5-P4326 devem fornecer um nível de alto desempenho e armazenamento flash econômico, que costumava ser o domínio de discos rígidos lentos, mas grandes.
No laboratório StorageReview, implantamos os dois nós de armazenamento e comutadores conforme o diagrama abaixo.
Ensaios
Para ter uma ideia de como um cluster pequeno como esse pode funcionar em um caso de uso de borda, configuramos vários testes do Microsoft SQL Server. O objetivo era examinar o desempenho completo do cluster para garantir que o DataON pudesse fazer uso adequado da tecnologia Intel Optane e dos SSDs Intel QLC. Secundariamente, queríamos examinar as capacidades de apenas um único nó, para ter uma noção de como esta solução lida com a perda de um nó, seja para atualizações planejadas ou no caso de uma falha mais grave.
Nosso plano de teste aproveitou o Benchmark Factory da Quest usando o perfil TPC-C como gerador de carga para as VMs do SQL Server que implantamos. Configuramos oito VMs (quatro por nó), que ofereceram um bom equilíbrio entre CPU e atividade de disco para o cluster. Os geradores de carga de trabalho foram hospedados em um sistema fora desse ambiente e conectados a esse cluster por rede de 10 GbE.
Configuração de teste do SQL Server (por VM)
- Servidor 2019 do Windows
- Ocupação de armazenamento: 800 GB alocados, 620 GB usados
- 8 vCPUs
- 60 GB de RAM (55 GB na configuração do modo com falha)
- SQL Server 2019
- Tamanho do banco de dados: escala 1,500
- Carga de cliente virtual: 15,000
- Memória RAM: 48 GB
- Duração do teste: 3 horas
- 15 minutos de pré-condicionamento
- período de amostra de 45 minutos
Em nossos testes, focamos no desempenho da latência, com o nível de desempenho da transação permanecendo constante com o Benchmark Factory.
Com uma carga de 4 VMs no total (2 por nó), medimos uma latência média de 2.5 ms com uma carga de transação agregada de 12,649TPS.
Aumentando a carga para 6 VMs, a latência média aumentou ligeiramente para 4 ms com uma carga de transação agregada de 18,967 TPS.
No pico de carga de 8 VMs (4 por nó), a latência atingiu a média de 6.5 ms, com uma carga de transação agregada de 25,277.
Ao longo desses testes, vimos claramente o benefício de ter os SSDs Optane nessa mistura. Eles assumiram o peso das gravações, liberando os SSDs QLC para leituras responsivas como o nível de capacidade de alta velocidade. Mesmo quando dobramos a carga de trabalho para oito VMs do SQL Server atingindo esse cluster HCI, a latência aumentou apenas um pouco, mostrando que essa configuração é adequada para cargas de trabalho que podem estourar de tempos em tempos.
Embora o desempenho em um ambiente totalmente operacional seja importante, outra consideração é como as cargas de trabalho funcionarão se um nó no cluster ficar offline ou as cargas de trabalho precisarem ser migradas para manutenção do sistema. Para testar esse cenário, mantivemos nossa carga total de 8VMs e as migramos para um único nó. Nesta configuração, medimos uma latência média de apenas 4.5 ms, o que foi melhor do que os dois nós online. Parte disso é devido à remoção da sobrecarga de armazenamento na operação de nó único.
Conclusão
Para este projeto, executamos uma série de testes SQL no sistema para ilustrar as cargas de trabalho de desempenho comumente encontradas em casos de uso de ponta e SMB. Nosso objetivo era entender com que eficácia o Microsoft Azure Stack HCI neste DataON Cluster foi capaz de aproveitar o hardware para obter os resultados desejados. Especificamente, isso significa fornecer uma solução que oferece uma rara combinação de desempenho e valor.
Podemos confirmar por meio de nossos testes que a seleção de componentes da DataON foi realmente bem-sucedida na criação de uma solução econômica Azure Stack HCI SDS com desempenho extremamente bom. Isso se deve em parte à escolha de usar o SSD Intel D5-P4326 para armazenamento de capacidade, que aproveita com eficiência os SSDs Intel Optane para classificação por níveis.
Essa é uma noção crítica, já que os SSDs QLC fornecem capacidade massiva e densa para o cluster, ao mesmo tempo em que fornecem os benefícios de TCO que acompanham o armazenamento flash. Para martelar o ponto, as unidades QLC permitem 15.36 TB de capacidade por compartimento de unidade de 2.5”. Seriam necessários 8 HDDs de 2 TB em RAID 0 para corresponder à capacidade ou mudar para um chassi de 3.5” para aproveitar HDDs maiores, mas ainda mais lentos. De qualquer forma, a queda de desempenho da unidade Intel QLC para os discos rígidos é mais do que considerável; é uma diferença exponencial quando se trata de capacidade de resposta do aplicativo.
Por mais que desejemos que todas as leituras e gravações venham dos SSDs Optane (já que eles são a mídia de maior desempenho nessa configuração), às vezes haverá uma falha. Nesse caso, o desempenho do QLC SSD vai derrotar os discos rígidos, protegendo o cluster HCI de irregularidades de desempenho comuns em topologias que combinam flash e discos rígidos. Na verdade, vimos um desempenho tão equilibrado aqui que daqui para frente, as empresas em geral podem precisar repensar o design de HDD/flash e se inclinar mais para o design QLC/Optane para obter o máximo de benefícios em HCI.
A outra grande preocupação em relação aos clusters de 2 nós é o desempenho em um estado degradado. Testamos isso falhando em um nó e atribuímos toda a carga de trabalho do SQL a um único nó. Nesse caso, o SQL foi mais responsivo e teve um desempenho um pouco melhor do que em 2 nós, principalmente devido à sobrecarga reduzida das comunicações nó a nó. Obviamente, não é recomendável executar em um estado degradado por muito tempo, mas é reconfortante saber que isso pode ser feito sem sacrificar o desempenho.
No geral, o cluster HCI-224 HCI com SSDs D5-P4326 QLC foi simples de implantar, fácil de usar e poderoso o suficiente para uma ampla gama de cargas de trabalho. Seu preço também o torna disponível para uma ampla faixa de usuários. Além disso, este sistema foi certificado para Microsoft Windows Server 2019 e validado como Intel Select Solution.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS feed
Este relatório é patrocinado pela DataON. Todas as visões e opiniões expressas neste relatório são baseadas em nossa visão imparcial do(s) produto(s) em consideração.