Wir in der IT-Community sind oft besessen von Showpferden – den schnellsten und/oder leistungsstärksten Geräten oder Systemen –, weil wir die großen und kleinen Zahlen lieben, die sie zur Schau stellen. Die Realität ist jedoch, dass die meisten Benutzer die protzige Kraft von Showpferden einfach nicht brauchen. Sie brauchen Arbeitspferde, Systeme, die zu einem erschwinglichen Preis echte Arbeitslasten im Alltag bewältigen können. Wir haben ziemlich viel Zeit damit verbracht, uns mit den Hyperconverged Infrastructure (HCI)-Angeboten von DataON zu befassen, und haben sogar die angeboten DataON HCI-224 mit Intel® Optane™ SSDs – die Wahl unseres Herausgebers Auszeichnung im letzten Jahr. In diesem Artikel betrachten wir einen weiteren HCI-224-Cluster mit zwei Knoten. Dieses Modell verfügt jedoch über einen einzigartigen Speichermix: Intel Optane SSDs als Front-End Intel® SSD D5-P4326 15.36 TB mit QLC 3D NAND, wodurch ein System entsteht, das Kapazität, Leistung und Kosten optimiert.
Wir in der IT-Community sind oft besessen von Showpferden – den schnellsten und/oder leistungsstärksten Geräten oder Systemen –, weil wir die großen und kleinen Zahlen lieben, die sie zur Schau stellen. Die Realität ist jedoch, dass die meisten Benutzer die protzige Kraft von Showpferden einfach nicht brauchen. Sie brauchen Arbeitspferde, Systeme, die zu einem erschwinglichen Preis echte Arbeitslasten im Alltag bewältigen können. Wir haben ziemlich viel Zeit damit verbracht, uns mit den Hyperconverged Infrastructure (HCI)-Angeboten von DataON zu befassen, und haben sogar die angeboten DataON HCI-224 mit Intel® Optane™ SSDs – die Wahl unseres Herausgebers Auszeichnung im letzten Jahr. In diesem Artikel betrachten wir einen weiteren HCI-224-Cluster mit zwei Knoten. Dieses Modell verfügt jedoch über einen einzigartigen Speichermix: Intel Optane SSDs als Front-End Intel® SSD D5-P4326 15.36 TB mit QLC 3D NAND, wodurch ein System entsteht, das Kapazität, Leistung und Kosten optimiert.
Bevor wir uns jedoch mit diesem Cluster befassen, werden wir zunächst diskutieren, warum sich DataON für QLC als Speicherkapazitätsstufe entschieden hat, und einen Überblick darüber geben Microsoft Azure Stack HCI, DataON und HCI-Cluster mit zwei Knoten.
Intel® SSD D5-P4326-Serie
Die Verwendung der QLC-basierten Intel SSD D5-P4326 als Kapazitätsspeicher in diesem HCI-Cluster ist eine logische Wahl, da sie solide, zuverlässige und kosteneffiziente Leistung bietet. Wir haben sicher schon schnellere SSDs gesehen, aber die SSD D5-P4326 findet mit einer gewaltigen Kapazität von 15.36 TB pro Laufwerk die richtige Balance zwischen Leistung und Kosten. Diese Kombination ist auf die zugrunde liegende Architektur zurückzuführen. Mithilfe der Intel® QLC 3D NAND-Technologie ist Intel in der Lage, die Kosten dieses Geräts zu senken und gleichzeitig seine Kapazität zu erhöhen.
Intel war einer der ersten Speicheranbieter, der QLC-basierte Laufwerke herstellte. Die QLC- oder Quad-Level-Cell-Technologie speichert vier Datenbits in einer einzelnen Zelle, während ältere Technologien wie TLC, MLC und SLC nur drei, zwei oder ein Bit(s) pro Zelle speichern. Aufgrund der QLC-Speicherung mit höherer Dichte können die Kosten pro GB Speicher gesenkt werden. Darüber hinaus ermöglicht die 3D-NAND-Technologie von Intel die horizontale Stapelung dieser Zellen auf dem Chip, wodurch die Speicherdichte weiter erhöht wird. Es gibt jedoch einen Kompromiss. Um die Vorteile der Intel SSD D5-P4326 SSD effektiv nutzen zu können, müssen Schreib-Workloads gepuffert werden, bevor sie auf das QLC-basierte Laufwerk übertragen werden. QLC-SSDs eignen sich ideal für kapazitätsoptimierte, leseintensive Workloads. Daher müssen Plattformen wie ein HCI-Cluster ein geeignetes Cache-Gerät vor den QLC-SSDs verwenden, um eine gleichmäßige Leistung zu liefern. Im Fall des DataON HCI-224 Pro Knoten werden vier Intel Optane SSD DC P4800X NVMe 750 GB 2.5-Zoll-Laufwerke verwendet, um Schreibvorgänge zu absorbieren, bevor Daten nach unten in die QLC-Ebene verschoben werden. Dieser Ansatz verhindert, dass übermäßige Schreibvorgänge zu Leistungseinbußen auf der QLC-Ebene führen. Das Endergebnis ist, dass Kunden ein nahtloses Erlebnis und eine ideale Mischung aus Intel Optane-basierter Leistung und QLC-basierter Kapazität erhalten.
Microsoft Azure Stack HCI
Kurz gesagt ist Microsoft Azure Stack HCI eine On-Premise-Implementierung der Microsoft Azure Cloud Services. Im Grunde hat Microsoft seine bestehende HCI-Technologie in die Azure Stack-Familie integriert, damit seine Kunden virtualisierte Anwendungen vor Ort mit direktem Zugriff auf Azure-Verwaltungsdienste wie Sicherung und Notfallwiederherstellung ausführen können.
Azure Stack HCI sollte nicht mit Azure oder Azure Stack Hub verwechselt werden. Während Azure ein öffentlicher Cloud-Dienst ist, handelt es sich bei Azure Stack Hub und Azure Stack HCI um On-Premise-Lösungen. Darüber hinaus führt Azure Stack Hub das Azure-Betriebssystem mit Azure Services aus und ist eine IaaS- und PaaS-Lösung. Azure Stack HCI hingegen führt das Windows-Server-Betriebssystem mit Azure-Diensten aus und ermöglicht Ihnen die Ausführung virtualisierter Workloads auf die gleiche Weise, wie Sie es gewohnt sind, mit dem zusätzlichen Vorteil, dass Sie für zusätzliche Dienste eine Verbindung zur Azure-Cloud herstellen können. Dies ist ein großer Unterschied und ermöglicht es IT-Administratoren, auf Azure Stack HCI dieselben Tools und denselben Verwaltungsstapel zu verwenden wie bei Azure.
Azure Stack HCI verwendet Hyper-V für seinen Hypervisor, Storage Spaces Direct für die Speicherung, Microsoft Software Defined Networking (SDN) für die Vernetzung und Windows Admin Center (WAC) für die Verwaltung. Azure Stack HCI läuft auf Standard-x86-Servern und anderen Standardkomponenten.
WAC ist eine lokal bereitgestellte, browserbasierte Verwaltungsplattform, die sowohl lokale als auch Azure-Cloud-basierte Instanzen von Windows 10 und Windows Server verwalten kann. WAC wird auf einem Windows-System installiert und verwendet PowerShell-Skripte. Es verwendet außerdem Microsoft Windows Management Framework (WMF) über WinRM (Windows Remote Management), um Windows-Systeme, einschließlich HCI-Cluster und virtuelle Azure-Maschinen, zu überwachen und zu verwalten.
Das Haupt-Dashboard von WAC bietet einen Überblick über CPU, Speicher, Netzwerk und Festplattenaktivität für die überwachten Systeme. Auf der linken Seite des Bildschirms enthält WAC außerdem eine Reihe von Systemverwaltungs- und Browsing-Tools, darunter Zertifikate, Geräte, Ereignisse, Dateien, lokale Benutzer und Gruppen, Firewall, Prozesse, Registrierung, Rollen und Funktionen, Dienste und Speicher.
DataON war eines der ersten Unternehmen, das die Vorteile des offenen Frameworks von WAC nutzte und seine Management Utility Software Tool (MUST)-Erweiterung auf WAC portierte. DataON MUST bietet Infrastrukturtransparenz, Überwachung und Verwaltung für Windows-Server-basiertes HCI, Netzwerk und Speicher.
DataON HCI
Obwohl Azure Stack HCI handelsübliche Hardwarekomponenten verwendet, müssen diese Elemente so konzipiert sein, dass sie zusammenarbeiten, um optimale Ergebnisse zu liefern. In mancher Hinsicht ist es einfacher, Hochleistungssysteme zu entwerfen als Arbeitspferdesysteme. Bei Hochleistungssystemen können Sie erstklassige Komponenten auswählen und die Kosten außer Acht lassen. Bei Arbeitspferden müssen Sie jedoch das Kosten-Leistungs-Verhältnis der Komponenten bewerten und sie dann optimieren, um ihre Leistung zu optimieren. Es erfordert genauso viel – wenn nicht sogar mehr – technischen Aufwand, um ein wertorientiertes System und dieses System bereitzustellen Im Ingenieurwesen sind wir weiterhin von DataON beeindruckt.
DataON pflegt eine starke Partnerschaft mit Microsoft und Intel und nutzte diese Beziehungen bei der Entwicklung von Systemen für Azure Stack HCI. Die HCI Intel Select-Lösungen von DataON können vorkonfiguriert und in einem eigenen Rack geliefert werden, sodass sie sofort einsatzbereit sind. Diese Bereitstellungsmethode ist nicht nur im Rechenzentrum nützlich, sondern erweist sich auch für Systeme, die am Rande eingesetzt werden, wo die vorhandene IT-Infrastruktur und das Personal entweder begrenzt oder nicht vorhanden sind.
2-Knoten-HCI-Cluster
Wir haben kürzlich eine gemacht Artikel über Microsoft Azure Stack HCI 2-Knotencluster (2NC). Nachfolgend finden Sie eine Zusammenfassung dieses Artikels. Wir haben herausgefunden, dass ein 2NC in vielen Anwendungsfällen die für ein Unternehmen erforderliche Ausfallsicherheit bieten kann und dass 2NCs weniger komplex und kostspielig sind als ein herkömmlicher Cluster mit drei oder vier Knoten. DataON war einer der ersten Anbieter, der den Wert der 2NC-Integration erkannte und sich dafür einsetzte. Aber 2NCs sind für DataON nichts Neues, denn im September 2017 kündigte DataON die ersten beiden kommerziell erhältlichen Produkte an Kepler-47 HCI für Windows Server 2016 Storage Spaces Direct-Systeme (jetzt Azure Stack HCI).
Die 2NC-Implementierung von DataON unterstützt den gleichzeitigen Ausfall eines Laufwerks und eines Servers. Dazu wird RAID 5 + 1 verwendet, um die Paritätsausfallsicherheit zu gewährleisten und diese auf den anderen Server zu spiegeln. Microsoft nennt diese Fähigkeit „verschachtelte Ausfallsicherheit“ und hat diese Funktion in Windows Server 2019 zu Storage Spaces Direct hinzugefügt. Auch hier ist 2NC nicht für jeden die richtige Technologiewahl, kann aber vielen Unternehmen eine zuverlässige und kostengünstige Lösung bieten.
Aufbau und Design
Der Azure Stack HCI-Cluster, mit dem wir hier arbeiten, wurde auf der All-Flash-NVMe-Plattform DataON HCI-224 aufgebaut. Diese Server hatten eine Größe von 2 HE und 24 NVMe-Schächte an der Vorderseite und boten auf der Rückseite reichlich Erweiterungsmöglichkeit für PCIe-basierte Komponenten. Die Beschriftung unterschied sich stark von den mattschwarzen Laufwerksträgern, sodass bestimmte Laufwerke im Falle eines notwendigen Austauschs leicht zu erkennen sind. Alles war beschriftet, was nicht ungewöhnlich ist, aber das Ausmaß der Kennzeichnung war außergewöhnlich. Bei unserer Bereitstellung war jeder Knoten mit (1 und 2) sowie mehreren anderen Elementen gekennzeichnet, was die Bereitstellung und Verwaltung von DataON-Systemen im Rechenzentrum vereinfachte.
Die Knoten in diesem Test umfassten Dual 2nd Gen Intel®
Für die Speicherung war jeder Knoten mit vier Intel Optane SSD DC P4800X NVMe 750 GB 2.5-Zoll-Laufwerken (zum Caching) und vier Intel SSD D5-P4326 15.36 TB 2.5-Zoll-QLC-Laufwerken (Kapazitätsspeicherstufe) ausgestattet.
Die Knoten wurden über Mellanox ConnectX-4 EN-Dual-Port-QSFP28-40/56-GbE-Karten unter Verwendung passiver QSFP-Kupferkabel mit 3M Mellanox LinkX ETH 40 GbE, 40 Gbit/s und QSFP miteinander verbunden.
Offensichtlich hat DataON viel Zeit und Überlegungen in die Konfiguration und Komponentenauswahl für dieses System gesteckt, um Leistung und Kosten in Einklang zu bringen. Wir waren sehr gespannt, wie sich die Intel SSD D5-P4326 SSDs als Speicherebene schlagen würden. Durch die Kombination von Intel Optane SSDs und Intel QLC 3D NAND SSDs sollen die D5-P4326 SSDs eine Hochleistungsstufe und kostengünstigen Flash-Speicher bieten, der früher die Domäne träger, aber großer Festplatten war.
Im StorageReview-Labor haben wir die beiden Speicherknoten und Switches wie unten dargestellt bereitgestellt.
Testen
Um ein Gefühl dafür zu bekommen, wie ein kleiner Cluster wie dieser in einem Edge-Anwendungsfall funktionieren kann, haben wir mehrere Microsoft SQL Server-Tests eingerichtet. Ziel war es, die Leistung des gesamten Clusters zu untersuchen, um sicherzustellen, dass DataON die Intel Optane-Technologie und Intel QLC SSDs ordnungsgemäß nutzen kann. Zweitens wollten wir die Fähigkeiten nur eines einzelnen Knotens untersuchen, um ein Gefühl dafür zu bekommen, wie diese Lösung mit dem Verlust eines Knotens umgeht, sei es bei geplanten Updates oder im Falle eines schwerwiegenderen Ausfalls.
Unser Testplan nutzte die Benchmark Factory von Quest und nutzte das TPC-C-Profil als Lastgenerator für die von uns bereitgestellten SQL Server-VMs. Wir haben acht VMs konfiguriert (vier pro Knoten), was eine gute Balance zwischen CPU- und Festplattenaktivität für den Cluster bot. Die Workload-Generatoren wurden auf einem System außerhalb dieser Umgebung gehostet und über ein 10-GbE-Netzwerk mit diesem Cluster verbunden.
SQL Server-Testkonfiguration (pro VM)
- Windows Server 2019
- Speicherbedarf: 800 GB zugewiesen, 620 GB genutzt
- 8 vCPUs
- 60 GB RAM (55 GB in der Konfiguration im fehlgeschlagenen Modus)
- SQL Server 2019
- Datenbankgröße: Maßstab 1,500
- Virtuelle Client-Auslastung: 15,000
- RAM-Puffer: 48 GB
- Testdauer: 3 Stunden
- 15 Minuten Vorkonditionierung
- 45-minütiger Probezeitraum
Bei unseren Tests haben wir uns auf die Latenzleistung konzentriert, wobei das Transaktionsleistungsniveau mit Benchmark Factory konstant blieb.
Bei einer Auslastung von insgesamt 4 VMs (2 pro Knoten) haben wir eine durchschnittliche Latenz von 2.5 ms bei einer Gesamttransaktionslast von 12,649 TPS gemessen.
Durch die Erhöhung der Last auf 6 VMs erhöhte sich die durchschnittliche Latenz leicht auf 4 ms bei einer Gesamttransaktionslast von 18,967 TPS.
Bei der Spitzenlast von 8 VMs (4 pro Knoten) erreichte die Latenz einen durchschnittlichen Höchstwert von 6.5 ms bei einer Gesamttransaktionslast von 25,277.
Bei diesen Tests haben wir deutlich die Vorteile der Optane-SSDs in dieser Mischung gesehen. Sie übernahmen die Hauptlast der Schreibvorgänge und machten die QLC-SSDs für reaktionsschnelle Lesevorgänge als Hochgeschwindigkeitskapazitätsstufe frei. Selbst als wir die Arbeitslast auf acht SQL Server-VMs verdoppelten, die diesen HCI-Cluster erreichen, stieg die Latenz nur geringfügig an, was zeigt, dass diese Konfiguration gut für Arbeitslasten geeignet ist, die von Zeit zu Zeit ansteigen können.
Während die Leistung in einer voll funktionsfähigen Umgebung wichtig ist, ist eine weitere Überlegung, wie die Workloads funktionieren, wenn ein Knoten im Cluster offline geht oder Workloads zur Systemwartung migriert werden müssen. Um dieses Szenario zu testen, haben wir unsere volle Auslastung von 8 VMs beibehalten und sie auf einen einzelnen Knoten migriert. In diesem Setup haben wir eine durchschnittliche Latenz von nur 4.5 ms gemessen, was besser war als bei beiden Knoten online. Ein Teil davon ist auf die Beseitigung des Speicheraufwands im Einzelknotenbetrieb zurückzuführen.
Fazit
Für dieses Projekt haben wir eine Reihe von SQL-Tests auf dem System durchgeführt, um die Leistungsauslastungen zu veranschaulichen, die häufig in Edge- und SMB-Anwendungsfällen auftreten. Unser Ziel war es zu verstehen, wie effektiv Microsoft Azure Stack HCI in diesem DataON-Cluster die Hardware nutzen konnte, um die gewünschten Ergebnisse zu erzielen. Konkret bedeutet dies, eine Lösung bereitzustellen, die eine seltene Kombination aus Leistung und Wert bietet.
Durch unsere Tests können wir bestätigen, dass die Komponentenauswahl von DataON tatsächlich erfolgreich war und eine kostengünstige Azure Stack HCI SDS-Lösung mit äußerst hoher Leistung geschaffen hat. Dies liegt zum Teil daran, dass sie sich für die Intel SSD D5-P4326 als Kapazitätsspeicher entschieden haben, die die Vorteile der Intel Optane SSDs für die Tiering-Funktion effizient nutzt.
Dies ist ein entscheidender Gedanke, da die QLC-SSDs dem Cluster enorme, dichte Kapazität bieten und gleichzeitig die Gesamtbetriebskostenvorteile bieten, die mit Flash-Speicher einhergehen. Um es auf den Punkt zu bringen: Die QLC-Laufwerke ermöglichen eine Kapazität von 15.36 TB pro 2.5-Zoll-Laufwerksschacht. Es wären 8 2-TB-Festplatten in RAID 0 erforderlich, um die gleiche Kapazität zu erreichen, oder ein Wechsel zu einem 3.5-Zoll-Gehäuse, um die Vorteile größerer, aber noch langsamerer Festplatten zu nutzen. In jedem Fall ist der Leistungsabfall vom Intel QLC-Laufwerk zu den Festplatten mehr als beträchtlich; Es ist ein exponentieller Unterschied, wenn es um die Reaktionsfähigkeit der Anwendung geht.
So sehr wir uns wünschen, dass alle Lese- und Schreibvorgänge von den Optane-SSDs erfolgen (da sie in dieser Konfiguration die leistungsstärksten Medien sind), kann es manchmal zu Fehlern kommen. In diesem Fall übertrifft die QLC-SSD-Leistung die Festplatten und schützt den HCI-Cluster vor Leistungsunregelmäßigkeiten, die bei Topologien, die Flash- und Festplattenlaufwerke kombinieren, häufig auftreten. Tatsächlich haben wir hier eine so ausgewogene Leistung gesehen, dass Unternehmen in Zukunft möglicherweise das HDD-/Flash-Design überdenken und sich stärker dem QLC/Optane-Design zuwenden müssen, um die größten Vorteile von HCI zu nutzen.
Das andere große Problem bei 2-Knoten-Clustern ist die Leistung in einem herabgesetzten Zustand. Wir haben dies getestet, indem wir einen Knoten ausfielen und die gesamte SQL-Arbeitslast einem einzelnen Knoten überließen. In diesem Fall war SQL reaktionsschneller und schnitt etwas besser ab als bei 2-Knoten, was hauptsächlich auf den geringeren Overhead durch die Kommunikation zwischen Knoten zurückzuführen war. Natürlich ist es nicht empfehlenswert, in einem solchen degradierten Zustand längere Zeit zu laufen, aber es ist beruhigend zu wissen, dass dies ohne Leistungseinbußen möglich ist.
Insgesamt war der HCI-224-HCI-Cluster mit D5-P4326-QLC-SSDs einfach bereitzustellen, benutzerfreundlich und leistungsstark genug für ein breites Spektrum an Arbeitslasten. Aufgrund seines Preises ist es auch einem breiten Benutzerkreis zugänglich. Darüber hinaus wurde dieses System für Microsoft Windows Server 2019 zertifiziert und als Intel Select Solution validiert.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS Feed
Dieser Bericht wird von DataON gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).