首頁 Enterprise ROBO HCI 中彈性和集群管理的重要性

ROBO HCI 中彈性和集群管理的重要性

by 湯姆芬頓
戴爾易安信 AX-640

小型辦公室和遠程/分支辦公室 (ROBO) 環境中計算資源的部署和持續管理一直存在問題,其中有許多不同且相互競爭的因素在起作用。 許多企業以及中小型企業 (SMB) 都依賴 ROBO HCI 系統來處理作為這些組織命脈的日常關鍵業務交易。 這些系統需要低成本但高性能,提供冗餘但組件盡可能少,並且維護良好但沒有昂貴的 IT 資源和人員專用於每個站點。

使用適用於 Microsoft Azure Stack HCI 的 Dell EMC 解決方案

小型辦公室和遠程/分支辦公室 (ROBO) 環境中計算資源的部署和持續管理一直存在問題,其中有許多不同且相互競爭的因素在起作用。 許多企業以及中小型企業 (SMB) 都依賴 ROBO HCI 系統來處理作為這些組織命脈的日常關鍵業務交易。 這些系統需要低成本但高性能,提供冗餘但組件盡可能少,並且維護良好但沒有昂貴的 IT 資源和人員專用於每個站點。

幸運的是,IT 供應商已經認識到 ROBO 系統的獨特挑戰,並提出了應對這些挑戰的解決方案。 在本文中,我們將了解運行 Microsoft 軟件的 Dell Technologies 硬件如​​何應對這些挑戰。 我們的方法與我們通常關注系統性能的常規文章略有不同。 雖然我們將在系統上運行性能測試,但我們還將查看其從初始大小開始的整個生命週期。

ROBO HCI簡介

我們將在本文中看到的系統是 適用於 Microsoft Azure Stack HCI 的 Dell EMC 解決方案 具有 2 個運行 Windows Server 2019 (2NC) 的 AX 節點的集群。 今年早些時候,Dell Technologies 發布了專門設計(經過驗證和認證)以運行 Azure Stack HCI 的 AX 節點。 Dell Technologies 目前在其解決方案目錄中提供三種不同的節點類型: AX-640、AX-740xd 和 AX-6515. 這些模型中的每一個都使客戶能夠通過配置不同的組件來為其 ROBO HCI 部署設計理想的平台。

AX-640 和 AX-740xd 節點是使用第二代英特爾至強可擴展處理器的雙路節點,而 AX-6515 是運行 64 核 Gen 2 AMD EPYC 處理器的單路節點。 Dell EMC 的 AX 型號允許客戶選擇最適合其用例的節點。 AX-640 適用於計算密度工作負載,AX-740xd 適用於存儲容量繁重的工作負載,而 AX-6515 適用於需要在其企業數據中心中實現價值優化系統和處理器多樣化的用戶。

Dell EMC Azure 前角

我們將在本文中仔細研究的系統是 AX-640,這是一個支持 1 至 96GB RAM 的雙路 768U 節點。 它可以配置 3 到 92TB 的 NVMe、SSD 和/或 HDD 存儲,以創建混合或全閃存存儲。 它是目前 AX 產品組合中唯一支持英特爾超高性能傲騰持久內存和 SSD 設備的節點。 如果配置得當,AX-640 節點將成為最快的商用 HCI 節點的有力競爭者。 Dell Technologies 有一張漂亮的圖表,概述了他們的 AX 節點的 Azure Stack HCI 配置選項。

StorageReview-Dell-Azure-Stack1

我們將在本文中使用的 AX-640 節點配備了雙 Intel Xeon 6230 CPU、384GB DDR4 內存以及 4 個 XNUMXTB NVMe SSD。

部署 ROBO HCI 解決方案時,擁有可靠且高性能的硬件只是成功的一半; 另一半是軟件。 在這種情況下,我們將運行經過 Azure Stack HCI 驗證的系統。 Azure Stack HCI 允許客戶運行 Windows Server 操作系統,並通過無縫連接到 Azure 雲以獲得額外服務(例如備份和災難恢復)的額外好處 Microsoft Windows 管理中心. Azure 服務通過來自同一管理平面的 WAC 擴展進行集成。

Azure Stack HCI 使用 Hyper-V 作為其管理程序,使用 Storage Spaces Direct 作為本地存儲。 使用 2NC 進行 ROBO HCI 部署可以大大降低實施成本。 對於極其註重成本的實施,它可以配置為在 2NC 配置中工作,而無需在其存儲結構的單鏈路或雙鏈路配置中使用交換機。 對於交換實施,10GbE 網絡將起作用。 Dell Technologies 建議使用 25GbE 存儲網絡,因為它的成本不會比 10GbE 網絡高很多。

顯然,如果系統沒有彈性,減少公司在設備上的投資是行不通的。 在每個系統的基礎上,Storage Spaces Direct 支持雙向和三向鏡像以及單奇偶校驗和雙奇偶校驗擦除編碼。 Microsoft 在記錄存儲效率以及這些不同保護方案的一般優勢和權衡方面做得很好。 我們建議仔細閱讀它以確定哪種方案最適合您的環境。 鏡像通常是性能最高的,這是我們在測試中使用的。

Azure Stack HCI 可以使用嵌套雙向鏡像或嵌套鏡像加速奇偶校驗作為彈性的一種選擇。 前者提供更好的性能,後者允許更高的數據效率。 嵌套雙向鏡像在主機和其他節點上創建數據的 RAID 1 副本。 嵌套鏡像加速奇偶校驗在每台服務器上製作數據副本,但使用擦除編碼而不是 RAID 1 來實現數據彈性(最近使用雙向鏡像確保可靠性的寫入除外)。 嵌套雙向鏡像,數據有25個副本寫入磁盤,數據效率為33%; 相比之下,嵌套鏡像加速奇偶校驗的數據效率為 40% 到 XNUMX%。

兩種方案都能夠同時支持驅動器故障和服務器故障。

嵌套彈性方案都不需要特殊的 RAID 硬件。

Microsoft 2NC 拓撲需要作為中立第三方的見證人向倖存節點添加投票,以防止出現“裂腦”情況。 您可以使用文件共享(我們在測試中使用過)或 Azure 云作為見證。 如果群集中的兩個節點都具有可靠的 Internet 連接,Microsoft 建議使用後者。 Azure 雲見證是一個 blob 存儲對象,而文件共享是一個 SMB 文件共享。 見證僅包含見證日誌文件。

ROBO HCI 採購和部署

正如承諾的那樣,我們希望全面了解在 ROBO 情況下採購、部署和管理 AX 節點集群需要做些什麼。

部署新系統的第一步是確定其規模。 Dell Technologies 使用 Live Optics 可以輕鬆計算部署所需的設備,Live Optics 是一種免費的在線工具,用於收集有關環境存儲、數據保護、服務器和文件系統的數據。 儘管它能夠在部署後 24 小時內深入了解您的環境,但您讓 Live Optics 運行的時間越長,它就會越了解您正在運行的工作負載的特徵。 Live Optics 可以從 Microsoft Windows、VMware vCenter 或 Linux/Unix 服務器收集數據。

Live Optics 儀表板將顯示從整個環境的 CPU、內存和存儲使用情況收集的編譯數據,所有這些都將為您提供您的環境中需要哪種類型系統的準確圖片。 如果您希望其他用戶(即同事、VAR 等)提出尺碼建議,您還可以與他們共享此數據。

從 Live Optics 收集的數據用於通過 Dell Technologies 客戶團隊提供的 Azure Stack HCI sizer 工具。 sizer 工具內置了所有 Engineering 的最佳實踐,可以生成配置選項,不僅滿足您當前的需求,而且可以考慮您未來的發展。

ROBO 環境的問題之一是尋找本地 IT 人才來設置和配置它們。 完成此任務的一種方法是使用 Dell EMC ProDeploy 服務。 此選項可幫助組織加快向遠程站點的部署,這意味著它們在線並立即增加價值。 或者,如果您確實有本地資源並想自己部署,戴爾有文檔和腳本來引導您完成整個過程。

任何組織最頭疼的問題之一就是支持系統。 支持複雜系統所涉及的大量麻煩是涉及多個硬件和軟件供應商。 例如,您可能有一個供應商提供服務器和存儲,另一個供應商提供網絡交換機,第三個供應商提供操作系統。 Dell EMC ProSupport 通過為其 HCI 解決方案配備專門的支持人員來幫助簡化此過程。 這些支持工程師接受過 Dell Azure Stack HCI 系統的硬件和軟件方面的培訓並且知識淵博,如果需要,他們知道將問題上報給正確的人。

當我們無意中錯誤配置系統安裝時,我們有機會利用 Dell Technologies HCI 專門的支持人員。 與我們合作的支持工程師知識淵博,能夠幫助我們解決我們陷入的困境。

達世幣節點日常管理

在完美的世界中,ROBO HCI 部署根本不需要管理。 但這不是現實,戴爾技術和微軟有次優選擇。 當系統位於很少或沒有本地 IT 支持的遠程位置時,擁有系統維護所需的工具非常重要。 Dell Technologies 通過使用 Windows Admin Center (WAC) 和一些針對他們自己的 IP 的擴展來實現這一點,Dell EMC OpenManage Integration for Windows Admin Center。

WAC 是一個基於瀏覽器的管理平台工具,用於管理 Windows 10 和 Windows Server。 它安裝在客戶端系統上,並通過 Windows 遠程管理 (WinRM) 使用遠程 PowerShell 和 Windows Management Instrumentation (WMI) 來監視和管理 Windows 系統以及 Azure Stack HCI 集群。

WAC 的概覽窗格提供了系統資源利用率的摘要以及用於管理系統證書和設備的工具。 WAC 還允許您查看事件和進程、安裝角色和功能,以及管理本地用戶和組、防火牆、服務和存儲。

Dell Technologies 利用 WAC 的可擴展性,創建了 Dell EMC OpenManage Integration with Microsoft Windows Admin Center (OMIMSWAC)。 這旨在簡化深度硬件監控和庫存以及編排 BIOS、固件和驅動程序更新的過程。 OMIMSWAC 使用 Windows Server 2019 的集群感知更新功能來更新 AX 節點和 Azure Stack HCI 集群。 要啟動 OMIMSWAC,請單擊 Dell EMC OpenManage 集成 位於 WAC 的功能區欄上。

我們通過啟動 WAC 將 OMIMSWAC 添加到我們的系統中,單擊 設定 進而 擴展名 進入 戴爾EMC 在搜索文本框中,選擇 Dell EMC Open Manage 集成,然後點擊 安裝.

通過使用 OMIMSWAC 查看我們的集群,我們可以了解系統的運行狀況並深入了解硬件,以查看其組件的清單以及它們使用的固件。

您甚至可以使用 OMIMSWAC 啟動 iDRAC 控制台以對 AX 節點進行帶外管理。

發現集群後,您可以使用 OMIMSWAC 查看集群級別節點的合規性報告。 如果運行 OMIMSWAC 的系統具有互聯網連接,它將自動從 downloads.dell.com 下載 Dell EMC System Update (DSU) 和 Dell EMC Inventory Collector (IC) 實用程序以運行合規性並更新目標節點(如果 DSU)和 IC 未在設置中配置。

OMIMSWAC 在完成例行任務(例如更新)方面確實表現出色。 OMIMSWAC 不僅會自動下載所需的戴爾更新包 (DUP),還會對集群進行滾動更新以消除停機時間。

達世幣節點測試

在查看 Dell EMC 2 節點 HCI 集群時,我們希望通過不同的故障場景查看其性能和應用程序可用性。 為此,我們配置了一個 SQL Server 性能測試,該測試由多達 8 個運行 Windows Server 2019 的 SQL Server 2019 虛擬機組成,在我們的 2 節點集群上保持平衡。 然後為每個 SQL Server 實例提供一個 1,500 規模的 TPC-C 數據庫,其中數據庫和日誌文件的容量等於每個實例 350GB。 這為我們提供了一個數據庫存儲空間,範圍從 1.4TB(4 個虛擬機)到 2.8TB(8 個虛擬機)不等。 我們使用 Quest 的 Benchmark Factory 作為該項目的工作負載生成器,有 15,000 個虛擬用戶與每個 VM 進行交互。

每個 VM 都分配有 8 個虛擬 CPU 和 60GB RAM 及其存儲空間。 我們的集群配置為每台主機 384GB RAM,在我們的故障節點場景中,我們將 VM RAM 分配降低到 40GB 以適應單個主機上的所有 8 個 VM。

我們的四個數據庫測試場景是:

  • 工作集群:總共 8 個虛擬機,每個節點 4 個虛擬機
  • 節點上的 1 個 SSD 發生故障:總共 8 個虛擬機,每個節點 4 個虛擬機
  • 一個節點發生故障:總共 8 個虛擬機,每個節點 8 個虛擬機

在我們測量 8 個 VM 性能的第一個測試中,每個節點 4 個,測得平均延遲為 5 毫秒。

雖然強大的性能和低數據庫延遲很好,但了解平台在非最佳條件下的表現同樣重要。 我們的第一個場景涵蓋了平台如何響應故障 SSD。 我們啟動了工作負載,並在其穩定後立即從一個節點中提取了一個 SSD。 在那種情況下,性能從正常情況下的 6.5 毫秒略微減慢到 5 毫秒。

我們的第二個場景涵蓋瞭如果一個節點因維護而離線時集群將如何運行,或者如果一個節點發生故障將如何運行。 在這兩種情況下,一切都會回退到一個節點,儘管後端網絡上沒有流量通過是一個微妙的優勢。 在這種情況下,我們測得的平均延遲為 5.875 毫秒。

最後的思考

我們看到越來越多的人對用於 ROBO 應用的 2NC 感興趣。 公司正在尋找價格合理、堅如磐石並且只需要與 IT 員工進行最少交互的系統,因為訪問這些系統可能會出現問題。 適用於 Azure Stack HCI 的 Dell EMC 解決方案檢查了所有這些要求。

AX 節點英特爾 SSD

我們研究瞭如何正確調整、獲取和設置 2NC ROBO HCI 系統。 與 Dell Technologies 合作如此輕鬆讓我們印象深刻。 在查看了初始系統設置後,我們又查看了維護系統所需的條件,並再次對 WAC 使此過程如此簡單而印象深刻。 然而,真正讓我們震驚的是 Dell Technologies OMIMSWAC 集成,因為它對我們的系統進行了滾動升級,涵蓋了從固件開始的所有內容,幾乎沒有操作員交互。 這是 Dell Technologies 的一個根本差異化因素,因為這種集成深度對於 Azure Stack HCI 提供商來說是獨一無二的。

當我們在系統上運行我們的基準測試時,我們發現在最佳條件下強大的應用程序工作負載性能。 我們的 SQL Server TPC-C 工作負載在四個均勻放置在集群上的 2.25 規模虛擬機上測得為 1,500 毫秒,當該工作負載增加到八個虛擬機時測得為 5 毫秒。 然而,更令人印象深刻的是集群在 SSD 出現故障或只有一個節點運行時的表現如何。 在 SSD 發生故障的第一種情況下,我們的 8VM 工作負載的延遲從 5 毫秒增加到 6.5 毫秒。 但是,在節點完全離線的情況下,延遲幾乎不會達到 5.875 毫秒。

總結一下我們對該系統的測試,我們發現它可以輕鬆處理 ROBO 部署給它帶來的負載。 這個很重要; 這些類型的部署應該更少地擔心像這樣的系統的性能,而更多地擔心長期操作。 對於第一點,Dell Technologies 已將這些 AX 節點設計到性能基本上無關緊要的水平。 我們的所有測試都驗證了即使是激進的 SQL Server 工作負載也能毫無問題地被吸收。

如果 ROBO HCI 用例的性能得到有效解決,則組織需要轉向第 2 天運營。 此處 Dell EMC AX 節點真正開始脫離,從持續管理的角度來看,與 WAC 集成以進行集群更新至關重要。 在 Azure Stack HCI 方面,Dell Technologies 無疑是這方面的領導者。 最後,組織應該關注系統彈性。 由於只有兩個節點並且在許多情況下沒有直接的現場支持,因此正常運行時間對業務至關重要。 在我們對幾個降級狀態的測試中,AX 節點沒有中斷地繼續運行,這意味著辦公室將保持在線,而不會影響應用程序性能。 部署 Azure Stack HCI 的方法有很多種,但沒有比 Dell Technologies 使用 AX 節點帶來的更全面的解決方案了。

查看信息圖

Dell EMC Azure Stack HCI 解決方案

本報告由 Dell Technologies 贊助。 本報告中表達的所有觀點和意見均基於我們對所考慮產品的公正看法。