首頁 未分類 ROBO HCI復原力和群體管理的重要特性

ROBO HCI復原力和群體管理的重要特性

by 湯姆芬頓

在小型辦公室和遠程/分支辦公室(ROBO)環境中,計算資源的部分和持續管理一直是個問題,可能有很多不同的競爭因素要思考。許多企業和中小型企業(SMB)依靠ROBO HCI系統來處理日常的關鍵業務交易,而這些交易是這些組織的脈絡。這些系統要求成本低,但又具備高性能,提供其他,組件數量要盡可能少,維護良好,但每個站點又沒有特殊的昂貴IT資源和人員。

適用於微軟件Azure Stack HCI的戴爾易安信解決方案

在小型辦公室和遠程/分支辦公室(ROBO)環境中,計算資源的部分和持續管理一直是個問題,可能有很多不同的競爭因素要思考。許多企業和中小型企業(SMB)依靠ROBO HCI系統來處理日常的關鍵業務交易,而這些交易是這些組織的脈絡。這些系統要求成本低,但又具備高性能,提供其他,組件數量要盡可能少,維護良好,但每個站點又沒有特殊的昂貴IT資源和人員。

幸運的是,IT供應商已經了解了ROBO系統的特殊挑戰,並提出了應對這些挑戰的解決方案。在本文中,我們將探索運行微軟件的戴爾科技硬件如何應對這些挑戰。我們的方案將與我們的常規文章有一些不相同。在常規文章中,我們通常側重於系統性能。雖然我們將對系統進行性能測試,但我們也將從初開始開始計劃模型確定開始,對其整個生命週期進行檢查。

ROBO HCI簡介

本文中測評的系統是適用於微軟件Azure Stack HCI群的戴爾易安信解決方案,其中包含2個運行Windows Server 2019 (2NC)的AX節點。今年早些時候,戴爾科技發布了專為運行Azure Stack HCI而設計(帶試驗證明和認可)證)的AX節點。戴爾科技目標前在其解決方案組合中提供了三種不同的節點類型:AX-640、AX-740xd和AX-6515。在這些節點中,每個型號都讓客戶能夠通過配置不同的組件,為其ROBO HCI部分設計理念的平台。

AX-640和AX-740xd节点是双插槽节点,使用第二代英特尔至强可扩展处理器,而AX-6515是单插槽节点,运行64核第二代AMD EPYC处理器。戴尔易安信的AX节点型号允许客户选择最适合其用例的节点。AX-640面向计算密集的工作负载,AX-740xd面向存储容量大的工作负载,而AX-6515则面向需要在企业数据中心实现价值优化系统和处理器多样化的用户。

Dell EMC Azure 前角

我们将在本文中详细探讨的系统是AX-640,这是一款双插槽1U节点,支持96到768GB的内存。它可以配置3到92TB的NVMe、SSD和/或HDD存储器,以创建混合或全闪存存储。它目前是AX产品组合中唯一支持英特尔超高性能傲腾持久内存和SSD设备的节点。如果配置得当,AX-640节点是最快商用HCI节点称号的有力竞争者。戴尔科技提供了一张简单明了的图表,概述了其AX节点的Azure Stack HCI配置选项。StorageReview-Dell-Azure-Stack1

本文將探討的AX-640節點配備了雙英特至強6230 CPU、384GB DDR4內存以及十個4TB NVMe SSD。

在部屬ROBO HCI解決方案時,擁有可靠和性能出眾的硬件只是故事的一半;另外一半是軟件。在本文中,我們將運行一次Azure Stack HCI試驗的系統。Azure Stack HCI允許客戶運行Windows Server操作系統,並通過微軟件Windows管理中心無線連接到Azure雲端以獲取額外的服務(如備件和災難修復)。Azure服務通過同一個管理平面中的WAC擴展進行集合。

Azure Stack HCI使用Hyper-V作為其管理程序,使用存儲空間直通作為其本地存儲器。在ROBO HCI部分中使用2NC可以大大降低實施成本。對於極其註重成本的實施,可以將其配置為2NC方式工作,無需為其他存儲結構單鍊或雙鏈配置交換機。對於採用交換機的實施項目,10GbE網絡即可工作。戴爾科技術推薦使用 25GbE 存儲網絡,因為它的成本並不會比 10GbE 網絡高太多。

顯然,如果系統不可恢復,減少公司在設備上的投資是不可能的。在每個系統上,存儲空間直接支持雙向以和三向鏡像及單奇偶校試、雙奇偶校試擦除編輯碼。微軟件在描述這些不同保護方法的存量效率、一般優勢和權衡方面做得非常好。我們推薦大家仔細閱讀,以確定哪種方案最適合您的環境。鏡像通常是性能最強的,這也是我們測試中使用的方案。

Azure Stack HCI可以使用複組雙向鏡或複組鏡加速奇偶校試作為還原的一種選擇。前者可提供更好的性能,後者可提供更高的數據效率。雙向鏡像針對主機上的數據和其他節點上的數據製作一個RAID 1副本。套鏡像加速奇偶校試在每台服務器上製作一份數據副本,但使用擦除編碼方式,而不是RAID 1,以保證數據的恢復能力(但最近的寫入使用雙向鏡像,以確保可靠)。套雙向鏡像的數據效率為25%,因為數據的四份複製都會寫入磁盤;相比之下,包圍鏡像加速奇偶校試的數據效率為33%到40%。

這兩種方法都能同時支持硬盤故障和服務器故障。

兩種套件都不需要特殊的RAID硬件。

微軟2NC拓撲需要一個作為中立第三方的證明,為倖存點增加一張票,以防出現“分區”場景。您可以使用文件共享(我們在測試中使用的方法)或Azure云作證。如果群集的兩個節點均有可靠的互聯網連接,微軟件建議使用後端。Azure雲驗證是一個blob存儲對象,而文件共享則是SMB文件共享。見證只包含見證日誌文件。

ROBO HCI採購和部署

正如所承諾的,我們希望全面地了解如何在ROBO場景下採購、部門和管理AX節點群需要哪些東西。

部屬新系統時,第一步是確定係統規範。戴爾科技讓客戶可以通過Live Optics輕鬆計算出部所需要的設備。Live Optics是一項免費費用的在線工具,用於收集有關環境的存儲、數據保護、服務器和文件系統的信息。雖然它在部署後24小時內就能深入了解環境,但您讓Live Optics運行的時間越長,它對您正處於運行的工作負載的特性會有更好的理解。Live Optics可以從微軟件Windows、VMware vCenter或Linux/Unix服務器收集數據。

Live Optics儀表板將會發現有關整個環境的CPU、內存和存儲使用情況的編譯數據。所有這些數據將幫助您準確地了解您的環境環境中需要什麼樣的系統。如果您想讓其他用戶(如同事、 VAR等)提出計劃模型,您也可以與他們分享這些數據。

從Live Optics中集的數據使用於Azure Stack HCI規範確定工具。該工具可通過戴爾科技客戶團隊獲得,內部設置了所有工程的最佳實踐續,不僅可以生成滿足您當前需要的配置選項,而且也可以考慮到您未來的增長。

ROBO環境的其中一個問題就是尋找本地IT人才能進行設置和配置。完成這項工作的其中一種途徑就是使用戴爾易安信的ProDeploy服務。這種方式可以幫助企業加快程站點,這意味著系統可以立即上線並增值。另外,如果您擁有本地資源並希望自己部屬,戴爾也有文檔和腳本指南您完成此一過程。

對於任何組織來說,最頭疼的問題之一就是為系統提供支持。支持恢復雜系統的一大難題在於摸及許多硬件和軟件提供應用商。例如,您可能有一個應用商提供服務和存儲器,或者一個供應商提供網絡交換機,第三個供應商提供操作系統。戴爾易安信的ProSupport服務為HCI解決方案配件專門的支持人員,幫助簡化了這一過程。這些支持工程師經過培訓,對戴爾Azure Stack HCI系統的硬件和軟件都很好理解。如果需要,他們知道將問題上報給合適的人。

當我們在安裝系統時無意中配置錯誤時,我們有機會協助戴爾科技HCI解決方案的專職支持人員。與我們合作的支持工程師知識淵博,能夠幫助我們走出困境。

AX節點日常管理

在完美的世界裡,ROBO HCI部根本不需要管理。但現在實際上並不是這樣,戴爾科技和微軟件提供了次優選擇。當系統位置遠程序位置,只有很少或沒有本地IT支持時,要有系統維護所需要的工具就顯得非常重要。戴爾科技使用Windows Admin Center (WAC)和一些面向自己IP的擴展,即適用於Windows Admin Center的戴爾易安信OpenManage Integration解解決方案來現實這一點。

WAC是一個基於瀏覽器的管理平台工具,用於管理Windows 10和Windows Server。它安裝在客戶系統上,通過Windows遠程管理(WinRM)使用遠程電源Shell 和 Windows Management Instrumentation (WMI) 來監控和管理 Windows 系統和 Azure Stack HCI 群。

WAC的概覽窗格提供系統資源使用情況摘要和管理系統證明書和設備所需的工具。WAC還允許您查看事件和進程,安裝角顏色和功能,並管理本地用戶和組、防火牆、服務和存儲。

戴爾科技利用WAC的可擴展性,創建了與面向微軟件Windows Admin Center的戴爾易安信OpenManage Integration (OMIMSWAC)工具。這樣做的目標是為了簡化深度固化件監控和存儲,協調BIOS、固件和驅動程序更新的過程。OMIMSWAC使用Windows Server 2019的群知道更新功能來更新AX節點和Azure Stack HCI群。要啟動OMIMSWAC,請單擊位在WAC功能區上的Dell EMC OpenManage 集成

啟動WAC,單擊“Settings”設置,然後單擊“Extensions”擴展,在搜索文檔中輸入Dell EMC,選擇Dell EMC Open Manage Integration,然後單擊安裝,即可將OMIMSWAC添加到系統中。

我們可以使用OMIMSWAC來查看我們的群,可以查看系統的健康狀況,並深入到硬件查看其他組件的存儲以及它們所使用的固定件。

您甚至可以使用OMIMSWAC來啟動iDRAC控制台,對AX節點進行帶外管理。

一時發現群,就可以使用OMIMSWAC查看群級節點的合規性報告。如果未在“Settings”中配置Dell EMC System Update (DSU)和Dell EMC Inventory Collector (IC),當運行OMIM SWAC的系統擁有互聯網連接時,系統將自動從 download.dell.com 下載 Dell EMC System Update (DSU) 和 Dell EMC Inventory Collector (IC) 實用工具,以進行合規性檢查和更新目標節點。

OMIMSWAC在完成常規任務(如更新)方面確實大放異彩。OMIMSWAC不僅會自動下載所需要的Dell Update Packages (DUP),還會對群進行滾動更新,以消除停機時間。

AX節點測試

當我們查看戴爾易安信的2節點HCI集群時,我們希望同時查看其性能和不同故障場景中的應用可用性。為此,我們配置了一個SQL Server性能測試,由平衡在我們的2點群上的多達8個運行Windows Server 2019的SQL Server 2019虛擬機組合。然後,每個SQL Server實例都被賦予一個1500規格的TPC-C數據庫,其中的數據庫和日誌文件相 當於每個實例350GB容量。給我們提供了一個數據庫存儲佔用情況,範圍從4虛擬機1.4TB到8虛擬機2.8TB。我們使用Quest的Benchmark Factory作為這個項目的工作負載生成器,每個虛擬機有15000個虛擬用戶進行交互。

每个虚拟机都被分配了8个虚拟CPU、60GB RAM及存储占用情况。我们的群集配置为每台主机384GB RAM,在我们的故障节点场景中,我们将虚拟机RAM分配降低到40GB,以适应单一主机上的所有8个虚拟机。

我們的四個數據庫測試場景是:

  • 工作群集:共8個虛擬機,每個節點4個虛擬機
  • 每個節點上有1個故障SSD:共8個虛擬機,每個節點4個虛擬機
  • 一個故障節點:共8個虛擬機,每個節點4個虛擬機

在我們的第一次測試中,測試量8個虛擬機的性能,每個節點上4個虛擬機,數字增加到平均5ms。

雖然強大的性能和低數據庫延遲是很好的事情,但是了解了平台在不太理智條下的表現同樣重要。我們的第一個場景涵蓋了平台如何應對SSD故障。我們啟動了工作負載,在工作負載剛穩定後,我們馬上從一個節點上拔出一塊SSD。在這種情況下,性能可以從正常情況下的5ms略微放寬到6.5ms。

我們的第二個場景測試的是,如果一個節點脫線維護,群將如何運行,或者如果一個節點故障,任務將如何運行行。在這兩種情況下,一次都會回到只有一個節點的狀態。儘管有一個微妙的優勢,即沒有流量通過後端網絡,但區域別大。在這種情況下,我們測得的平均延遲為5.875ms。

寫在最後

我們看到越來越多的人對 2NC 在 ROBO 中的應用感興趣。動態的系統,因為獲得這些IT資源可能是一個難題。面向Azure Stack HCI 的戴爾易安信解決方案滿足了所有這些需求。

AX 節點英特爾 SSD

我們研究了正確確定2NC ROBO HCI系統的規範、獲取和設置的路徑。戴爾科技給我們留下了深刻的印象,因為它讓一刀變得如此簡單。在了解完初始系統設置後,我們又看有了維護系統所需要的工作,WAC使這一過程變得如此簡單,再次給我們留下深刻的印象。然而,真正讓我們震驚的是戴爾科技的OMIMSWAC集合,因為它對我們的系統進行了滾動升級,涵蓋了從固定件到上層的所有內容,幾乎不需要操作員的互動。這是戴爾科技的一個最根本的與眾不同之處,因為這種深度集合對Azure Stack HCI提供商來說是獨一無二的。

当我们在系统上运行基准测试时,我们发现在最佳条件下,应用工作负载性能强劲。我们的SQL Server TPC-C工作负载在4个均匀放置在群集中的1500规模虚拟机上测得的数据为2.25ms,当工作负载增加到8个虚拟机时,测得数据为5ms。不过,更令人印象深刻的是,在一个SSD发生故障或只有一个节点运行的情况下,群集的表现。在第一种情况下,有一个SSD故障,我们的8虚拟机工作负载延迟从5ms增加到6.5ms。不过在一个节点完全离线的情况下,延迟几乎没有超过5.875ms。

總的來說我們在這個系統上的測試,我們發現它可以輕鬆處理ROBO部服會給它帶來的負載。這一點很重要,這一類部屬對系常規性的憂慮比較少,更多的是憂慮長周期運行。對於第一點,戴爾科技已經將這些AX節點設計到了基本無需要承擔能力問題的等級。問題地被吸取,我們所有的測試都驗證了這一點。

如果有效解決了ROBO HCI用例的性能問題,那麼企業就需要轉向第2天的操作。這才是戴爾易安信AX節點真正開始拉開距離的地方。從持續管理的角度來看,與WAC集合而來進行群更新是至關重要的。在Azure Stack HCI方面,戴爾科技顯然獨領風騷。最後,企業應注意系統的複原能力。只有兩個節點,而且在很多情況下沒有及時的現場支持,經常運行時間對業務至關重要。在我們對幾種下降狀態的測試中,AX節點在沒有中間斷的情況下堅守崗位,這意味著辦公室始永久保持在線,不會對應用性能產生影響。部屬Azure Stack HCI方法有很多,但是沒有比戴爾科技的AX節點更全面的解決方案了。