홈페이지 Enterprise ROBO HCI에서 복원력 및 클러스터 관리의 중요성

ROBO HCI에서 복원력 및 클러스터 관리의 중요성

by 톰 펜튼
델 EMC AX-640

소규모 사무실 및 원격/지점 사무실(ROBO) 환경에서 컴퓨팅 리소스의 배포 및 지속적인 관리는 항상 다양하고 경쟁적인 요소가 작용하는 문제였습니다. 많은 기업과 중소기업(SMB)은 ROBO HCI 시스템에 의존하여 이러한 조직의 생명줄인 일상적인 비즈니스 크리티컬 트랜잭션을 처리합니다. 이러한 시스템은 비용이 저렴하면서도 성능이 우수하고 중복성을 제공하지만 가능한 한 적은 수의 구성 요소를 포함해야 하며 유지 관리가 잘 되되 비용이 많이 드는 IT 리소스와 각 사이트 전용 인력이 없어야 합니다.

Microsoft Azure Stack HCI용 Dell EMC 솔루션 사용

소규모 사무실 및 원격/지점 사무실(ROBO) 환경에서 컴퓨팅 리소스의 배포 및 지속적인 관리는 항상 다양하고 경쟁적인 요소가 작용하는 문제였습니다. 많은 기업과 중소기업(SMB)은 ROBO HCI 시스템에 의존하여 이러한 조직의 생명줄인 일상적인 비즈니스 크리티컬 트랜잭션을 처리합니다. 이러한 시스템은 비용이 저렴하면서도 성능이 우수하고 중복성을 제공하지만 가능한 한 적은 수의 구성 요소를 포함해야 하며 유지 관리가 잘 되되 비용이 많이 드는 IT 리소스와 각 사이트 전용 인력이 없어야 합니다.

다행스럽게도 IT 공급업체는 ROBO 시스템의 고유한 문제를 인식하고 이를 해결하기 위한 솔루션을 제시했습니다. 이 기사에서는 Microsoft 소프트웨어를 실행하는 Dell Technologies 하드웨어가 이러한 문제를 해결하는 방법을 살펴보겠습니다. 우리의 접근 방식은 일반적으로 시스템 성능에 초점을 맞추는 일반 기사의 접근 방식과 약간 다를 것입니다. 시스템에서 성능 테스트를 실행하지만 초기 크기 조정부터 시작하여 전체 수명 주기도 살펴볼 것입니다.

ROBO HCI 소개

이번 포스팅에서 살펴볼 시스템은 Microsoft Azure Stack HCI용 Dell EMC 솔루션 Windows Server 2(2019NC)를 실행하는 2개의 AX 노드가 있는 클러스터. 올해 초 Dell Technologies는 Azure Stack HCI를 실행하도록 특별히 설계된(검증 및 인증 포함) AX 노드를 출시했습니다. Dell Technologies는 현재 솔루션 카탈로그에서 세 가지 노드 유형을 제공합니다. AX-640, AX-740xd 및 AX-6515. 이러한 각 모델은 고객에게 다양한 구성 요소를 사용한 구성을 통해 ROBO HCI 배포를 위한 이상적인 플랫폼을 설계할 수 있는 기능을 제공합니다.

AX-640 및 AX-740xd 노드는 6515세대 Intel Xeon Scalable 프로세서를 사용하는 듀얼 소켓 노드인 반면 AX-64는 2코어 Gen 640 AMD EPYC 프로세서를 실행하는 단일 소켓 노드입니다. Dell EMC의 AX 모델을 통해 고객은 사용 사례에 가장 적합한 노드를 선택할 수 있습니다. AX-740은 컴퓨팅 밀도 워크로드, AX-6515xd는 스토리지 용량이 많은 워크로드, AX-XNUMX는 엔터프라이즈 데이터 센터에서 가치 최적화된 시스템 및 프로세서 다양화가 필요한 사용자를 위한 것입니다.

Dell EMC Azure 전면 각도

이 기사에서 자세히 살펴볼 시스템은 640~1GB RAM을 지원하는 듀얼 소켓 96U 노드인 AX-768입니다. 3~92TB의 NVMe, SSD 및/또는 HDD 스토리지로 구성하여 하이브리드 또는 올플래시 스토리지를 생성할 수 있습니다. 현재 Intel 초고성능 Optane Persistent Memory 및 SSD 장치를 지원하는 AX 포트폴리오의 유일한 노드입니다. 적절하게 구성된 경우 AX-640 노드는 상업적으로 사용할 수 있는 가장 빠른 HCI 노드 타이틀에 대한 강력한 경쟁자입니다. Dell Technologies에는 AX 노드에 대한 Azure Stack HCI 구성 옵션을 설명하는 멋진 차트가 있습니다.

스토리지 검토-Dell-Azure-Stack1

이 기사에서 사용할 AX-640 노드에는 듀얼 Intel Xeon 6230 CPU, 384GB DDR4 메모리 및 4개의 XNUMXTB NVMe SSD가 장착되어 있습니다.

안정적이고 성능이 뛰어난 하드웨어를 갖추는 것은 ROBO HCI 솔루션을 배포할 때 이야기의 절반에 불과합니다. 나머지 절반은 소프트웨어입니다. 이 경우 Azure Stack HCI 인증 시스템을 실행합니다. Azure Stack HCI를 통해 고객은 Azure Stack HCI를 통해 추가 서비스(예: 백업 및 재해 복구)를 위해 Azure 클라우드에 원활하게 연결하는 추가 이점과 함께 Windows Server OS를 실행할 수 있습니다. Microsoft Windows 관리 센터. Azure 서비스는 동일한 관리 평면의 WAC 확장을 통해 통합됩니다.

Azure Stack HCI는 하이퍼바이저에 Hyper-V를 사용하고 로컬 저장소에 저장소 공간 다이렉트를 사용합니다. ROBO HCI 배포에 2NC를 사용하면 구현 비용을 상당히 낮출 수 있습니다. 매우 비용에 민감한 구현을 위해 스토리지 패브릭에 대한 단일 또는 이중 링크 구성의 스위치 없이 2NC 구성에서 작동하도록 구성할 수 있습니다. 스위치 구현의 경우 10GbE 네트워크가 작동합니다. Dell Technologies는 25GbE 네트워크보다 비용이 많이 들지 않는 10GbE 스토리지 네트워크를 권장합니다.

분명히 시스템이 탄력적이지 않으면 회사가 장비에 투자하는 것을 줄이는 것은 시작이 아닙니다. 저장소 공간 다이렉트는 시스템별로 양방향 및 XNUMX방향 미러링과 단일 및 이중 패리티 삭제 코딩을 지원합니다. Microsoft는 저장소 효율성, 이러한 다양한 보호 체계의 일반적인 이점 및 장단점을 잘 문서화했습니다. 귀하의 환경에 가장 적합한 구성표를 결정하기 위해 그것을 읽는 것이 좋습니다. 미러링은 일반적으로 가장 성능이 좋으며 테스트에서 사용한 것입니다.

Azure Stack HCI는 복원력을 위한 하나의 옵션으로 중첩된 양방향 미러링 또는 중첩된 미러 가속 패리티를 사용할 수 있습니다. 전자는 더 나은 성능을 제공하고 후자는 더 큰 데이터 효율성을 제공합니다. 중첩된 양방향 미러링은 호스트와 다른 노드에서 데이터의 RAID 1 복사본을 만듭니다. 중첩된 미러 가속 패리티는 각 서버에서 데이터의 복사본을 만들지만 데이터 복원력을 위해 RAID 1이 아닌 삭제 코딩을 사용합니다(신뢰성을 보장하기 위해 양방향 미러링을 사용하는 최근 쓰기 제외). 중첩된 양방향 미러링은 25개의 데이터 복사본이 디스크에 기록되므로 데이터 효율성이 33%입니다. 이에 비해 중첩된 미러 가속 패리티의 데이터 효율성 비율은 40% ~ XNUMX%입니다.

두 방식 모두 드라이브 장애와 서버 장애를 동시에 지원할 수 있습니다.

중첩된 탄력성 체계에는 특별한 RAID 하드웨어가 필요하지 않습니다.

Microsoft 2NC 토폴로지에서는 "분할 두뇌" 시나리오를 방지하기 위해 살아남은 노드에 투표를 추가하기 위해 중립적인 제XNUMX자 역할을 하는 감시자가 필요합니다. 파일 공유(테스트에서 사용) 또는 Azure 클라우드를 감시로 사용할 수 있습니다. Microsoft는 클러스터의 두 노드 모두 안정적인 인터넷 연결이 있는 경우 후자를 권장합니다. Azure 클라우드 감시는 Blob 스토리지 개체인 반면 파일 공유는 SMB 파일 공유입니다. 감시에는 감시 로그 파일만 포함됩니다.

ROBO HCI 조달 및 배포

약속한 대로 ROBO 상황에서 AX 노드 클러스터를 조달, 배포 및 관리하는 데 필요한 사항을 전체적으로 살펴보고 싶었습니다.

새 시스템을 배포할 때 첫 번째 단계는 크기를 조정하는 것입니다. Dell Technologies는 환경의 스토리지, 데이터 보호, 서버 및 파일 시스템에 대한 데이터를 수집하는 데 사용되는 무료 온라인 도구인 Live Optics를 사용하여 배포에 필요한 장비를 쉽게 계산할 수 있도록 합니다. 배포 후 24시간 만에 환경에 대한 통찰력을 얻을 수 있지만 Live Optics를 더 오래 실행할수록 실행 중인 워크로드의 특성에 대해 더 잘 이해할 수 있습니다. Live Optics는 Microsoft Windows, VMware vCenter 또는 Linux/Unix 서버에서 데이터를 수집할 수 있습니다.

Live Optics 대시보드는 전체 환경의 CPU, 메모리 및 스토리지 사용량에서 컴파일된 수집 데이터를 제공하며, 이 모든 데이터는 사용자 환경에 필요한 시스템 유형에 대한 정확한 그림을 제공합니다. 다른 사용자(예: 동료, VAR 등)가 사이즈 권장 사항을 제시하도록 하려면 이 데이터를 공유할 수도 있습니다.

Live Optics에서 수집한 데이터는 Dell Technologies 계정 팀을 통해 제공되는 Azure Stack HCI sizer 도구에서 사용됩니다. 사이저 도구에는 현재 요구 사항뿐만 아니라 향후 성장을 고려할 수 있는 구성 옵션을 생성하기 위해 엔지니어링의 모든 모범 사례가 내장되어 있습니다.

ROBO 환경의 문제 중 하나는 이를 설정하고 구성할 현지 IT 인재를 찾는 것입니다. 이를 수행하는 한 가지 방법은 Dell EMC ProDeploy 서비스를 사용하는 것입니다. 이 옵션은 조직이 원격 사이트에 대한 배포 속도를 높이는 데 도움이 됩니다. 즉, 온라인 상태이고 즉시 가치를 추가할 수 있습니다. 또는 로컬 리소스가 있고 직접 배포하려는 경우 Dell에서 프로세스를 안내하는 설명서와 스크립트를 제공합니다.

모든 조직의 가장 큰 골칫거리 중 하나는 시스템을 지원하는 것입니다. 복잡한 시스템 지원과 관련된 많은 번거로움은 관련된 여러 하드웨어 및 소프트웨어 공급업체입니다. 예를 들어 서버와 스토리지를 제공하는 공급업체, 네트워크 스위치를 제공하는 공급업체, 운영 체제를 제공하는 공급업체가 있을 수 있습니다. Dell EMC ProSupport는 HCI 솔루션에 대한 전담 지원 직원을 두어 이 프로세스를 간소화하는 데 도움을 주었습니다. 이러한 지원 엔지니어는 Dell Azure Stack HCI 시스템의 하드웨어와 소프트웨어 모두에 대해 교육을 받고 지식이 풍부하며 필요한 경우 문제를 에스컬레이션할 올바른 사람을 알고 있습니다.

우리는 Dell Technologies HCI 전담 지원 직원을 활용할 기회가 있었는데 실수로 시스템을 잘못 구성하여 설치했습니다. 우리와 함께 일한 지원 엔지니어는 지식이 풍부했고 우리가 처한 혼란을 해결하는 데 도움을 줄 수 있었습니다.

AX 노드 일일 관리

완벽한 세상에서 ROBO HCI 배포에는 관리가 전혀 필요하지 않습니다. 그것은 현실이 아니며 Dell Technologies와 Microsoft는 차선책을 가지고 있습니다. 시스템이 로컬 IT 지원이 거의 또는 전혀 없는 원격 위치에 있는 경우 시스템 유지 관리에 필요한 도구를 갖추는 것이 중요합니다. Dell Technologies는 자체 IP인 Dell EMC OpenManage Integration for Windows Admin Center에 맞춰진 일부 확장과 함께 WAC(Windows Admin Center)를 사용하여 이를 수행합니다.

WAC는 Windows 10 및 Windows Server를 관리하기 위한 브라우저 기반 관리 플랫폼 도구입니다. 클라이언트 시스템에 설치되며 WinRM(Windows 원격 관리)을 통해 원격 PowerShell 및 WMI(Windows Management Instrumentation)를 사용하여 Windows 시스템과 Azure Stack HCI 클러스터를 모니터링하고 관리합니다.

WAC의 개요 창은 시스템의 인증서 및 장치를 관리하기 위한 시스템 리소스 활용 및 도구에 대한 요약을 제공합니다. WAC를 사용하면 이벤트 및 프로세스를 보고, 역할 및 기능을 설치하고, 로컬 사용자 및 그룹, 방화벽, 서비스 및 저장소를 관리할 수 있습니다.

Dell Technologies는 WAC의 확장성을 활용하여 Dell EMC OpenManage Integration with Microsoft Windows Admin Center(OMIMSWAC)를 만들었습니다. 이는 심층적인 하드웨어 모니터링 및 인벤토리 프로세스와 BIOS, 펌웨어 및 드라이버 업데이트 오케스트레이션 프로세스를 쉽고 단순화하도록 설계되었습니다. OMIMSWAC는 Windows Server 2019의 클러스터 인식 업데이트 기능을 사용하여 AX 노드 및 Azure Stack HCI 클러스터를 업데이트합니다. OMIMSWAC를 시작하려면 다음을 클릭하십시오. Dell EMC OpenManage 통합 WAC의 리본 바에 있습니다.

WAC를 시작하고 클릭하여 시스템에 OMIMSWAC를 추가했습니다. 설정 그리고 확장 입력 Dell EMC 검색 텍스트 상자에서 선택 Dell EMC Open Manage 통합, 클릭 한 다음 설치.

OMIMSWAC를 사용하여 클러스터를 살펴봄으로써 우리는 시스템의 상태를 확인하고 구성 요소의 인벤토리와 사용 중인 펌웨어를 볼 수 있을 만큼 충분히 하드웨어로 깊이 들어갈 수 있었습니다.

OMIMSWAC를 사용하여 AX 노드의 대역외 관리를 위해 iDRAC 콘솔을 시작할 수도 있습니다.

클러스터를 검색한 후에는 OMIMSWAC를 사용하여 클러스터 수준의 노드에 대한 규정 준수 보고서를 볼 수 있습니다. OMIMSWAC가 실행 중인 시스템이 인터넷에 연결되어 있으면 downloads.dell.com에서 Dell EMC System Update(DSU) 및 Dell EMC Inventory Collector(IC) 유틸리티를 자동으로 다운로드하여 규정 준수를 실행하고 DSU가 있는 경우 대상 노드를 업데이트합니다. 및 IC는 설정에서 구성되지 않습니다.

OMIMSWAC는 업데이트와 같은 일상적인 작업을 수행하는 데 정말 빛을 발합니다. OMIMSWAC는 필요한 Dell 업데이트 패키지(DUP)를 자동으로 다운로드할 뿐만 아니라 클러스터의 롤링 업데이트를 수행하여 다운타임을 제거합니다.

AX 노드 테스트

Dell EMC 2노드 HCI 클러스터를 살펴보면서 성능과 다양한 장애 시나리오를 통한 애플리케이션 가용성을 모두 살펴보고 싶었습니다. 이를 위해 8노드 클러스터에서 균형 잡힌 Windows Server 2019를 실행하는 최대 2019개의 SQL Server 2 VM으로 구성된 SQL Server 성능 테스트를 구성했습니다. 그런 다음 각 SQL Server 인스턴스에 인스턴스당 용량이 1,500GB인 데이터베이스 및 로그 파일이 있는 350개 규모의 TPC-C 데이터베이스가 제공되었습니다. 이를 통해 1.4VM의 경우 4TB에서 2.8VM의 경우 최대 8TB에 이르는 데이터베이스 스토리지 공간을 확보할 수 있었습니다. 우리는 Quest의 Benchmark Factory를 이 프로젝트의 워크로드 생성기로 사용했으며 15,000명의 가상 사용자가 각 VM과 상호 작용했습니다.

각 VM에는 스토리지 공간과 함께 8개의 가상 CPU와 60GB의 RAM이 할당되었습니다. 클러스터가 호스트당 384GB의 RAM으로 구성되면 실패한 노드 시나리오에서 단일 호스트의 모든 40VM에 맞도록 VM RAM 할당을 8GB로 낮췄습니다.

네 가지 데이터베이스 테스트 시나리오는 다음과 같습니다.

  • 작업 클러스터: 총 8VM, 노드당 4VM
  • 노드에서 SSD 1개 실패: 총 8VM, 노드당 4VM
  • 하나의 노드 실패: 총 8VM, 노드당 8VM

8VM의 성능을 측정하는 첫 번째 테스트(각 노드에 4개)에서 대기 시간은 평균 5ms로 측정되었습니다.

강력한 성능과 낮은 데이터베이스 대기 시간도 좋지만 최적이 아닌 조건에서 플랫폼이 어떻게 작동하는지 아는 것도 그만큼 중요합니다. 첫 번째 시나리오는 실패한 SSD에 플랫폼이 어떻게 대응하는지 다루었습니다. 워크로드를 시작하고 안정화된 직후 한 노드에서 단일 SSD를 가져왔습니다. 이 상황에서 성능은 정상적인 조건에서 6.5ms에서 5ms로 약간 느려졌습니다.

두 번째 시나리오는 유지 관리를 위해 노드가 오프라인인 경우 클러스터가 어떻게 작동하는지 또는 하나가 실패할 경우 작동하는 방법을 다루었습니다. 백엔드 네트워크를 통과하는 트래픽이 없다는 미묘한 이점이 있지만 두 조건 모두 모든 것이 단 하나의 노드로 돌아갑니다. 이 상황에서 평균 대기 시간은 5.875ms로 측정되었습니다.

최종 생각

ROBO 애플리케이션용 2NC에 점점 더 많은 관심을 보이고 있습니다. 기업은 가격이 합리적이고 견고하며 액세스가 문제가 될 수 있으므로 IT 직원과 최소한의 상호 작용만 필요한 시스템을 찾고 있습니다. Azure Stack HCI용 Dell EMC 솔루션은 이러한 모든 요구 사항을 확인합니다.

AX 노드 인텔 SSD

우리는 2NC ROBO HCI 시스템을 올바르게 크기 조정, 획득 및 설정하는 데 무엇이 필요한지 살펴보았습니다. 우리는 Dell Technologies를 사용하는 것이 얼마나 쉬운지 감명받았습니다. 초기 시스템 설정을 살펴본 후 시스템을 유지 관리하는 데 무엇이 필요한지 살펴보고 WAC가 이 프로세스를 얼마나 쉽게 만들어 주는지 다시 한 번 깊은 인상을 받았습니다. 그러나 정말 우리를 놀라게 한 것은 Dell Technologies OMIMSWAC 통합으로 시스템의 롤링 업그레이드를 수행하여 펌웨어부터 모든 것을 다루며 운영자 상호 작용이 거의 없었습니다. 이는 Azure Stack HCI 공급자에게만 고유한 통합 수준이므로 Dell Technologies의 근본적인 차별화 요소입니다.

시스템에서 벤치마크를 실행했을 때 최적의 조건에서 강력한 애플리케이션 워크로드 성능을 발견했습니다. SQL Server TPC-C 워크로드는 클러스터에 고르게 배치된 2.25개의 1,500 규모 VM에서 5ms를 측정했고 해당 워크로드가 8개의 VM으로 증가했을 때 5ms를 측정했습니다. 그러나 훨씬 더 인상적인 것은 실패한 SSD 또는 단 하나의 노드만 작동할 때 클러스터가 얼마나 잘 작동하는지였습니다. 실패한 SSD의 첫 번째 시나리오에서 6.5VM 작업 부하가 5.875ms에서 XNUMXms로 증가했습니다. 하지만 노드가 완전히 오프라인인 상태에서 대기 시간은 겨우 XNUMXms에 불과했습니다.

이 시스템에 대한 테스트를 요약하면 ROBO 배포가 가하는 부하를 쉽게 처리할 수 있음을 발견했습니다. 이건 중요하다; 이러한 유형의 배포는 이와 같은 시스템의 성능 기능보다는 장기 운영에 대해 더 많이 걱정해야 합니다. 첫 번째로 Dell Technologies는 이러한 AX 노드를 성능과 거의 관련이 없는 수준으로 엔지니어링했습니다. 우리의 모든 테스트는 공격적인 SQL Server 워크로드도 문제 없이 흡수되었음을 검증합니다.

ROBO HCI 사용 사례에 대해 성능이 효과적으로 해결되면 조직은 2일차 운영으로 전환해야 합니다. 여기에서 Dell EMC AX 노드가 실제로 제거되기 시작합니다. 클러스터 업데이트를 위한 WAC와의 통합은 지속적인 관리 관점에서 중요합니다. Dell Technologies는 Azure Stack HCI와 관련하여 이 분야에서 확실한 리더입니다. 마지막으로 조직은 시스템 복원력을 살펴봐야 합니다. 노드가 XNUMX개뿐이고 대부분의 경우 즉각적인 현장 지원이 없기 때문에 가동 시간은 비즈니스에 매우 중요합니다. 몇 가지 저하된 상태에 대한 테스트에서 AX 노드는 중단 없이 작동했습니다. 즉, 사무실은 애플리케이션 성능에 영향을 주지 않고 온라인 상태를 유지합니다. Azure Stack HCI를 배포하는 방법에는 여러 가지가 있지만 Dell Technologies가 AX 노드로 테이블에 제공하는 것보다 더 포괄적인 솔루션은 없습니다.

인포그래픽 보기

Dell EMC Azure 스택 HCI 솔루션

이 보고서는 Dell Technologies의 후원을 받았습니다. 이 보고서에 표현된 모든 견해와 의견은 고려 중인 제품에 대한 우리의 공정한 견해를 기반으로 합니다.