Home Empreendimento A importância da resiliência e do gerenciamento de clusters no ROBO HCI

A importância da resiliência e do gerenciamento de clusters no ROBO HCI

by Tom Fenton
DellEMC AX-640

A implantação e o gerenciamento contínuo de recursos de computação em pequenos escritórios e ambientes remotos/filiais (ROBO) sempre foram problemáticos, com muitos fatores diferentes e concorrentes em jogo. Muitas empresas, bem como pequenas e médias empresas (SMBs), dependem dos sistemas ROBO HCI para lidar com as transações críticas de negócios do dia-a-dia que são a força vital dessas organizações. Esses sistemas precisam ser de baixo custo, mas de alto desempenho, oferecer redundância, mas ter o menor número possível de componentes e ser bem mantidos, mas não ter recursos de TI caros e pessoal dedicado a cada local.

com soluções Dell EMC para Microsoft Azure Stack HCI

A implantação e o gerenciamento contínuo de recursos de computação em pequenos escritórios e ambientes remotos/filiais (ROBO) sempre foram problemáticos, com muitos fatores diferentes e concorrentes em jogo. Muitas empresas, bem como pequenas e médias empresas (SMBs), dependem dos sistemas ROBO HCI para lidar com as transações críticas de negócios do dia-a-dia que são a força vital dessas organizações. Esses sistemas precisam ser de baixo custo, mas de alto desempenho, oferecer redundância, mas ter o menor número possível de componentes e ser bem mantidos, mas não ter recursos de TI caros e pessoal dedicado a cada local.

Felizmente, os fornecedores de TI reconheceram os desafios únicos dos sistemas ROBO e criaram soluções para enfrentá-los. Neste artigo, veremos como o hardware da Dell Technologies executando o software da Microsoft enfrenta esses desafios. Nossa abordagem será um pouco diferente daquela de nossos artigos regulares, onde geralmente focamos no desempenho do sistema. Embora estejamos executando testes de desempenho no sistema, também veremos todo o seu ciclo de vida, começando pelo dimensionamento inicial.

Introdução ROBO HCI

O sistema que veremos neste artigo é um Soluções Dell EMC para Microsoft Azure Stack HCI cluster com 2 nós AX executando o Windows Server 2019 (2NC). No início deste ano, a Dell Technologies lançou nós AX projetados especificamente (com validação e certificação) para executar o Azure Stack HCI. Atualmente, a Dell Technologies oferece três tipos diferentes de nós em seu catálogo de soluções: AX-640, AX-740xd e AX-6515. Cada um desses modelos oferece aos clientes a capacidade de projetar a plataforma ideal para suas implantações ROBO HCI por meio da configuração com diferentes componentes.

Os nós AX-640 e AX-740xd são nós de soquete duplo que usam processadores Intel Xeon Scalable de segunda geração, enquanto o AX-6515 é um nó de soquete único que executa um processador AMD EPYC Gen 64 de 2 núcleos. Os modelos AX da Dell EMC permitem que os clientes escolham os nós que melhor se adequam ao seu caso de uso. O AX-640 é voltado para cargas de trabalho de densidade computacional, o AX-740xd para cargas de trabalho pesadas com capacidade de armazenamento e o AX-6515 para usuários que precisam de um sistema com valor otimizado e diversificação de processador em seus data centers corporativos.

Dell EMC Azure ângulo frontal

O sistema que veremos mais de perto neste artigo é o AX-640, um nó 1U de soquete duplo que suporta de 96 a 768 GB de RAM. Ele pode ser configurado com 3 a 92 TB de armazenamento NVMe, SSD e/ou HDD para criar armazenamento híbrido ou totalmente flash. Atualmente, é o único nó no portfólio AX que oferece suporte a dispositivos SSD e memória Optane Persistent Intel de altíssimo desempenho. Quando configurado corretamente, o nó AX-640 é um forte candidato ao título de nó HCI mais rápido disponível comercialmente. A Dell Technologies tem um bom gráfico que descreve suas opções de configuração do Azure Stack HCI para seus nós AX.

ArmazenamentoReview-Dell-Azure-Stack1

O nó AX-640 que usaremos neste artigo veio equipado com duas CPUs Intel Xeon 6230, 384 GB de memória DDR4 e dez SSDs NVMe de 4 TB.

Ter hardware confiável e de alto desempenho é apenas metade da história ao implantar uma solução ROBO HCI; a outra metade é o software. Nesse caso, estaremos executando um sistema validado Azure Stack HCI. O Azure Stack HCI permite que os clientes executem um sistema operacional Windows Server com o benefício adicional de se conectar perfeitamente à nuvem do Azure para serviços adicionais (como backups e recuperação de desastres) por meio do Centro de administração do Microsoft Windows. Os serviços do Azure são integrados por meio de extensões WAC do mesmo plano de gerenciamento.

Azure Stack HCI usa Hyper-V para seu hipervisor e Espaços de Armazenamento Diretos para seu armazenamento local. Usar um 2NC para implantações de ROBO HCI pode reduzir consideravelmente o custo de implementação. Para implementações extremamente econômicas, ele pode ser configurado para funcionar em uma configuração 2NC sem um switch em uma configuração de link único ou duplo para sua estrutura de armazenamento. Para implementações comutadas, uma rede 10GbE funcionará. A Dell Technologies recomenda uma rede de armazenamento de 25 GbE, pois não custará muito mais do que a rede de 10 GbE.

Obviamente, diminuir o investimento que uma empresa faz em equipamentos não é uma boa ideia se o sistema não for resiliente. Em uma base por sistema, o Storage Spaces Direct suporta espelhamento bidirecional e tridirecional e codificação de apagamento de paridade simples e dupla. A Microsoft fez um bom trabalho documentando a eficiência do armazenamento e as vantagens e compensações gerais desses diferentes esquemas de proteção. Recomendamos a leitura para decidir qual esquema seria mais adequado ao seu ambiente. O espelhamento geralmente é o mais eficiente, que é o que usamos em nossos testes.

Azure Stack HCI pode usar espelhamento bidirecional aninhado ou paridade acelerada por espelhamento aninhado como uma opção para resiliência. A primeira oferece melhor desempenho e a segunda permite maior eficiência dos dados. O espelhamento bidirecional aninhado faz uma cópia RAID 1 dos dados no host e no outro nó. A paridade acelerada por espelho aninhado faz uma cópia dos dados em cada servidor, mas usa codificação de eliminação, em vez de RAID 1, para resiliência de dados (exceto para as gravações recentes que usam espelhamento bidirecional para garantir a confiabilidade). O espelhamento bidirecional aninhado tem uma taxa de eficiência de dados de 25%, pois quatro cópias dos dados são gravadas no disco; em comparação, a paridade acelerada por espelho aninhado tem uma taxa de eficiência de dados de 33% a 40%.

Ambos os esquemas são capazes de suportar simultaneamente uma falha de unidade e falha de servidor.

Nenhum dos esquemas de resiliência aninhada requer hardware RAID especial.

A topologia Microsoft 2NC requer uma testemunha que atue como uma terceira parte neutra para adicionar um voto ao nó sobrevivente para evitar um cenário de “cérebro dividido”. Você pode usar um compartilhamento de arquivo (que usamos em nossos testes) ou a nuvem do Azure como testemunha. A Microsoft recomenda o último caso ambos os nós do cluster tenham uma conexão confiável com a Internet. A testemunha de nuvem do Azure é um objeto de armazenamento de blob enquanto o compartilhamento de arquivo é um compartilhamento de arquivo SMB. A testemunha contém apenas o arquivo de log da testemunha.

Aquisição e implantação de ROBO HCI

Conforme prometido, queríamos ter uma visão holística do que é necessário para adquirir, implantar e gerenciar um cluster de nós AX em uma situação ROBO.

O primeiro passo ao implantar um novo sistema é dimensioná-lo. A Dell Technologies facilita o cálculo do equipamento que será necessário para implantação com o Live Optics, uma ferramenta on-line gratuita usada para coletar dados sobre armazenamento, proteção de dados, servidor e sistemas de arquivos de um ambiente. Embora seja capaz de obter informações sobre seu ambiente apenas 24 horas após a implantação, quanto mais tempo você deixar o Live Optics em execução, melhor será o entendimento sobre as características das cargas de trabalho que você está executando. O Live Optics pode coletar dados de servidores Microsoft Windows, VMware vCenter ou Linux/Unix.

O painel do Live Optics apresentará dados coletados compilados da CPU, memória e uso de armazenamento de todo o seu ambiente, os quais fornecerão uma imagem precisa de que tipo de sistema você precisará em seu ambiente. Você também pode compartilhar esses dados com outros usuários (ou seja, colegas de trabalho, VARs, etc.) se quiser que eles façam recomendações de dimensionamento.

Os dados coletados do Live Optics são usados ​​na ferramenta de dimensionamento Azure Stack HCI disponível por meio da equipe de contas da Dell Technologies. A ferramenta de dimensionamento tem todas as práticas recomendadas de engenharia incorporadas para produzir opções de configuração não apenas para suas necessidades atuais, mas também para levar em consideração seu crescimento futuro.

Um dos problemas com os ambientes ROBO é encontrar talentos de TI locais para instalá-los e configurá-los. Uma maneira de fazer isso é usar o Dell EMC ProDeploy Services. Essa opção ajuda as organizações a acelerar a implantação em sites remotos, o que significa que estão online e agregando valor imediatamente. Como alternativa, se você tiver recursos locais e quiser implantá-los você mesmo, a Dell tem documentação e scripts para orientá-lo no processo.

Uma das maiores dores de cabeça para qualquer organização é dar suporte a um sistema. Grande parte do aborrecimento envolvido no suporte a sistemas complexos são os vários fornecedores de hardware e software envolvidos. Por exemplo, você pode ter um fornecedor que fornece servidores e armazenamento, outro que fornece comutadores de rede e um terceiro que fornece o sistema operacional. O Dell EMC ProSupport ajudou a simplificar esse processo ao ter uma equipe de suporte dedicada para suas soluções de HCI. Esses engenheiros de suporte são treinados e conhecem o hardware e o software de um sistema Dell Azure Stack HCI e, se necessário, eles conhecem as pessoas certas para quem encaminhar os problemas.

Tivemos a oportunidade de utilizar a equipe de suporte dedicada da Dell Technologies HCI quando inadvertidamente configuramos incorretamente nosso sistema ao instalá-lo. O engenheiro de suporte com quem trabalhamos era muito experiente e foi capaz de nos ajudar a desvendar a confusão em que nos metemos.

Gerenciamento Diário do Nó AX

No mundo perfeito, as implantações do ROBO HCI não exigiriam nenhum gerenciamento. Isso não é realidade e a Dell Technologies e a Microsoft têm a próxima melhor opção. Quando os sistemas estão localizados em um local remoto com pouco ou nenhum suporte local de TI, é importante ter as ferramentas necessárias para a manutenção do sistema. A Dell Technologies faz isso usando o Windows Admin Center (WAC) com algumas extensões voltadas para seu próprio IP, Dell EMC OpenManage Integration para Windows Admin Center.

O WAC é uma ferramenta de plataforma de gerenciamento baseada em navegador para gerenciar o Windows 10 e o Windows Server. Ele é instalado em um sistema cliente e usa o PowerShell remoto e o Windows Management Instrumentation (WMI) sobre o Windows Remote Management (WinRM) para monitorar e gerenciar os sistemas Windows, bem como os clusters Azure Stack HCI.

O painel de visão geral do WAC fornece um resumo da utilização de recursos de um sistema e ferramentas para gerenciar os certificados e dispositivos de um sistema. O WAC também permite visualizar eventos e processos, instalar funções e recursos e gerenciar usuários e grupos locais, firewalls, serviços e armazenamento.

A Dell Technologies aproveitou a extensibilidade do WAC e criou o Dell EMC OpenManage Integration com o Microsoft Windows Admin Center (OMIMSWAC). Isso foi projetado para facilitar e simplificar o processo de monitoramento e inventário de hardware profundo e orquestrar atualizações de BIOS, firmware e driver. OMIMSWAC usa o recurso Cluster-Aware Updating do Windows Server 2019 para atualizar os nós AX e o cluster Azure Stack HCI. Para iniciar o OMIMSWAC, clique em Integração Dell EMC OpenManage localizado na barra de fita do WAC.

Adicionamos o OMIMSWAC ao nosso sistema iniciando o WAC, clicando Configurações e depois Extensões entrar Dell EMC na caixa de texto de pesquisa, selecionando Integração de gerenciamento aberto da Dell EMCe clicando em Instale.

Ao usar o OMIMSWAC para examinar nosso cluster, pudemos ver a integridade do sistema e mergulhar fundo no hardware o suficiente para ver um inventário de seus componentes e qual firmware eles estavam usando.

Você pode até usar o OMIMSWAC para iniciar o console iDRAC para gerenciamento fora de banda dos nós AX.

Depois de descobrir o cluster, você pode usar o OMIMSWAC para ver um relatório de conformidade para os nós no nível do cluster. Se o sistema OMIMSWAC estiver em execução tiver uma conexão com a Internet, ele baixará automaticamente os utilitários Dell EMC System Update (DSU) e Dell EMC Inventory Collector (IC) de downloads.dell.com para executar a conformidade e atualizar o(s) nó(s) de destino se DSU e IC não estão configurados nas configurações.

O OMIMSWAC realmente brilha na realização de tarefas rotineiras, como atualizações. O OMIMSWAC não apenas baixará automaticamente os pacotes de atualização Dell (DUPs) necessários, mas também fará uma atualização contínua de um cluster para eliminar o tempo de inatividade.

Teste de Nó AX

Ao analisarmos o cluster HCI de 2 nós da Dell EMC, queríamos observar seu desempenho e a disponibilidade de aplicativos em diferentes cenários de falha. Para isso, configuramos um teste de desempenho do SQL Server que consiste em até 8 VMs do SQL Server 2019 executando o Windows Server 2019 balanceadas em nosso cluster de 2 nós. Cada instância do SQL Server recebeu um banco de dados TPC-C de escala 1,500, onde o banco de dados e os arquivos de log equivaliam a 350 GB de capacidade por instância. Isso nos deu uma pegada de armazenamento de banco de dados variando de 1.4 TB com 4 VMs até 2.8 TB com 8 VMs. Usamos o Benchmark Factory da Quest como gerador de carga de trabalho para este projeto, com 15,000 usuários virtuais interagindo com cada VM.

Cada VM recebeu 8 CPUs virtuais e 60 GB de RAM junto com seu espaço de armazenamento. Com nosso cluster sendo configurado com 384 GB de RAM por host, em nosso cenário de nó com falha, reduzimos a alocação de VM RAM para 40 GB para caber em todas as 8 VMs em um único host.

Nossos quatro cenários de teste de banco de dados foram:

  • Cluster de trabalho: total de 8 VMs, 4 VMs por nó
  • 1 SSD falhou em um nó: 8 VMs no total, 4 VMs por nó
  • Um nó falhou: total de 8 VMs, 8 VMs por nó

Em nosso primeiro teste medindo o desempenho de 8 VMs, 4 em cada nó, a latência mediu 5 ms em média.

Embora o desempenho forte e a baixa latência do banco de dados sejam ótimos, saber como uma plataforma funciona em condições abaixo do ideal é igualmente importante. Nosso primeiro cenário cobriu como a plataforma responderia a um SSD com falha. Iniciamos a carga de trabalho e, logo após a estabilização, extraímos um único SSD de um nó. Nessa situação, o desempenho diminuiu ligeiramente para 6.5ms de 5ms em condições normais.

Nosso segundo cenário cobriu como o cluster funcionaria se um nó estivesse offline para manutenção ou como as coisas funcionariam se um deles falhasse. Em ambas as condições, tudo volta para apenas um nó, embora haja uma vantagem sutil de nenhum tráfego passar pela rede de back-end. Nesta situação, medimos uma latência média de 5.875ms.

Considerações Finais

Estamos vendo cada vez mais interesse em 2NCs para aplicações ROBO. As empresas estão procurando por sistemas com preços razoáveis, sólidos e que exijam apenas uma quantidade mínima de interação com a equipe de TI, pois o acesso a eles pode ser problemático. As soluções Dell EMC para Azure Stack HCI atendem a todos esses requisitos.

Nós AX Intel SSD

Analisamos o que seria necessário para dimensionar, adquirir e configurar corretamente um sistema 2NC ROBO HCI. Ficamos impressionados com a facilidade com a Dell Technologies. Depois de examinar a configuração inicial do sistema, analisamos o que seria necessário para manter o sistema e ficamos mais uma vez impressionados com a facilidade com que o WAC facilitou esse processo. O que realmente nos surpreendeu, no entanto, foi a integração do OMIMSWAC da Dell Technologies, pois ela realizou uma atualização contínua de nosso sistema, cobrindo tudo, desde o firmware, com pouca interação do operador. Esse é um diferencial fundamental para a Dell Technologies, pois essa profundidade de integração é exclusiva para provedores de Azure Stack HCI.

Quando executamos nossos benchmarks no sistema, encontramos um forte desempenho da carga de trabalho do aplicativo em condições ideais. Nossas cargas de trabalho SQL Server TPC-C mediram 2.25 ms em quatro VMs de 1,500 escalas distribuídas uniformemente no cluster e 5 ms quando essa carga de trabalho foi aumentada para oito VMs. O que foi ainda mais impressionante, porém, foi o desempenho do cluster com um SSD com falha ou apenas um nó operacional. No primeiro cenário de um SSD com falha, nossa carga de trabalho de 8 VMs aumentou de 5 para 6.5 ​​ms de latência. Com um nó completamente off-line, porém, a latência mal subiu para 5.875 ms.

Para resumir nossos testes neste sistema, descobrimos que ele poderia lidar facilmente com a carga que as implantações do ROBO colocariam nele. Isso é importante; esses tipos de implantações devem se preocupar muito menos com os recursos de desempenho de um sistema como este e mais com operações de longo prazo. Para o primeiro ponto, a Dell Technologies projetou esses nós AX para o nível em que o desempenho é amplamente irrelevante. Todos os nossos testes validam até mesmo cargas de trabalho agressivas do SQL Server foram absorvidas sem problemas.

Se o desempenho for efetivamente resolvido para os casos de uso do ROBO HCI, as organizações precisarão passar para as operações do dia 2. Aqui os nós Dell EMC AX realmente começam a se afastar, a integração com WAC para atualizações de cluster é crítica de uma perspectiva de gerenciamento contínuo. A Dell Technologies é um líder claro nessa frente quando se trata de Azure Stack HCI. Por fim, as organizações devem observar a resiliência do sistema. Com apenas dois nós e, em muitos casos, sem suporte imediato no local, o tempo de atividade é crítico para os negócios. Em nossos testes de vários estados degradados, os nós AX resistiram sem interrupção, o que significa que o escritório permanecerá online sem afetar o desempenho do aplicativo. Há várias maneiras de implantar o Azure Stack HCI, mas não há solução mais abrangente do que a que a Dell Technologies traz para a mesa com os nós AX.

Veja o infográfico

Soluções Dell EMC Azure Stack HCI

Este relatório é patrocinado pela Dell Technologies. Todas as visões e opiniões expressas neste relatório são baseadas em nossa visão imparcial do(s) produto(s) em consideração.