Beim Open Compute Project in diesem Jahr kündigte Toshiba die Veröffentlichung seiner neuen Software rund um NVMe over Fabrics (NVMe-oF), KumoScale, an. KumoScale ist darauf ausgelegt, die Leistungsvorteile direkt angeschlossener NVMe-Laufwerke über das Rechenzentrumsnetzwerk durch Disaggregation, Abstraktion und Verwaltungsintegration zu maximieren. Die Software erweitert die bereits leistungsstarken NVMe-SSDs, indem sie es plattenlosen Rechenknoten (mit nur einem Startlaufwerk) ermöglicht, über Hochgeschwindigkeits-Fabrics-Netzwerkkonnektivität auf diesen Flash-Speicher zuzugreifen. Durch diese Art der Verbindung erreicht der Netzwerkspeicher nahezu seine Spitzenleistung.
Beim Open Compute Project in diesem Jahr kündigte Toshiba die Veröffentlichung seiner neuen Software rund um NVMe over Fabrics (NVMe-oF), KumoScale, an. KumoScale ist darauf ausgelegt, die Leistungsvorteile direkt angeschlossener NVMe-Laufwerke über das Rechenzentrumsnetzwerk durch Disaggregation, Abstraktion und Verwaltungsintegration zu maximieren. Die Software erweitert die bereits leistungsstarken NVMe-SSDs, indem sie es plattenlosen Rechenknoten (mit nur einem Startlaufwerk) ermöglicht, über Hochgeschwindigkeits-Fabrics-Netzwerkkonnektivität auf diesen Flash-Speicher zuzugreifen. Durch diese Art der Verbindung erreicht der Netzwerkspeicher nahezu seine Spitzenleistung.
Während diese Software auf jeder Standard-x86-Systemplattform verwendet werden kann, nutzen wir für unseren Test den Newisys NSS-1160G-2N Dual-Node-Server. Die Newisys NSS-1160G-2N-Plattform ist für ein Hyper-Scale-Servicemodell mit Hot-Swap von NVMe-Laufwerken, ausgewogenem Durchsatz vom Netzwerk zu den Laufwerken, FRU-basierter Kaltgang-Wartung, redundanter Stromversorgung und Kühlung sowie anderen wichtigen Skalierungsfunktionen optimiert. Anforderungen an Rechenzentren. Unser Server bietet Speicher über zwei 100G Mellanox-Karten mit 8x Toshiba NVMe SSDs auf einem Knoten, der zweite Knoten dient der Verwaltung. Die Lasterzeugung erfolgt über einen einzelnen Dell PowerEdge R740xd, der über zwei 100G Mellanox ConnectX-5-NICs direkt mit Newisys verbunden ist. Der Newisys kann bis zu 16 NVMe- und Dual-Xeon-Serverboards in seinem kompakten 1U-Formfaktor aufnehmen und ist für niedrigste Latenz und höchste Leistung mit Direct-Attach-Laufwerken optimiert, obwohl der Server etwas länger ist, als wir es in unseren Racks gewohnt sind .
KumoScale bietet gegenüber herkömmlichen direkt angeschlossenen SSDs mehrere weitere Vorteile. Durch die Nutzung von NVMe-oF benötigen Benutzer weniger Knoten, um eine noch höhere Rechenleistung und Speicherkapazität zu erreichen. Weniger Knoten bedeuten, dass sie besser verwaltet werden können und die Kosten sinken. Ein Teil der Kostensenkung würde durch die Eliminierung von ungenutzter Speicher- und Rechenleistung erfolgen. KumoScale verwendet restful APIs zur Integration in mehrere Orchestrierungs-Frameworks; Am interessantesten ist, dass es mit Kubernetes funktioniert. Dadurch können diejenigen, die Kubernetes für die Containerspeicherung nutzen, dies mit einer viel höheren Leistung und genau der richtigen Menge an bereitgestelltem Speicher tun. Neben Kubernetes funktioniert KumoScale auch mit OpenStack, Lenovo XClarity und Intel RSD.
Management
Als besonderes Highlight verfügt KumoScale über eine recht schlanke und intuitive Benutzeroberfläche. Typischerweise wird diese Art von Lösung über die CLI gesteuert (und tatsächlich werden mehrere Aspekte auch weiterhin so sein). Auf der Registerkarte „Dashboard“ können Benutzer problemlos die Speicherleistung, die Systemkapazität und den Hardwarestatus einsehen und einen detaillierten Einblick in den Status einzelner SSDs erhalten.
Die nächste Registerkarte ist die Registerkarte „Netzwerk“, auf der die Verfügbarkeit und der Verbindungsstatus des/der Controller(s) sowie Typ, Geschwindigkeit, MAC-Adresse und MTU angezeigt werden.
Die Registerkarte „Speicher“ ist in vier Unterregisterkarten unterteilt. Die erste Unterregisterkarte sind die physischen SSDs. Hier können Benutzer die Laufwerke anhand ihres Namens, ihrer Verfügbarkeit, ihrer Seriennummer, ihrer Kapazität, ihrer Gruppennutzung und der verbleibenden Lebensdauer in Prozent sehen.
Die nächste Unterregisterkarte in virtualisierten Speichergruppen. Diese Unterregisterkarte ähnelt der oben genannten mit Name, Verfügbarkeit, Kapazität sowie verfügbarem Speicherplatz, der physischen SSD, von der aus sie virtualisiert wird, und ihrem Ziel.
Die nächste Unterregisterkarte „Ziele“ erweitert die oben genannten Ziele und zeigt den für den Host bereitgestellten virtualisierten Speicher, einschließlich Gruppenvolumes.
Die letzte Unterregisterkarte unter „Speicher“ ist die Registerkarte „Initiatoren“. Auf dieser Registerkarte werden der Name, der Alias (in diesem Fall Dell) und die Zugriffszahl des Initiators angezeigt. Der Benutzer kann Zugriffskontrolle (ACL) für das Ziel-Initiator-Paar gewähren.
Die nächste Hauptregisterkarte ist Speicherleistung. Hier können Benutzer den Durchsatz, die IOPS und die Latenz für einen bestimmten Zeitraum ablesen.
Und schließlich kommen wir zur Netzwerkleistung, die den Benutzern auch eine Aufschlüsselung der Leistungsmetriken, Bandbreite und Pakete für einen bestimmten Zeitraum bietet.
Kennzahlen
VDBench-Workload-Analyse
Wenn es um das Benchmarking von Speicher-Arrays geht, sind Anwendungstests am besten und synthetische Tests stehen an zweiter Stelle. Obwohl sie keine perfekte Darstellung der tatsächlichen Arbeitslasten darstellen, helfen synthetische Tests dabei, Speichergeräte mit einem Wiederholbarkeitsfaktor zu vergleichen, der es einfach macht, Konkurrenzlösungen direkt miteinander zu vergleichen. Diese Workloads bieten eine Reihe unterschiedlicher Testprofile, die von „Vier-Ecken“-Tests über allgemeine Tests der Datenbankübertragungsgröße bis hin zu Trace-Erfassungen aus verschiedenen VDI-Umgebungen reichen. Alle diese Tests nutzen den gemeinsamen vdBench-Workload-Generator mit einer Skript-Engine, um Ergebnisse über einen großen Computing-Testcluster zu automatisieren und zu erfassen. Dadurch können wir dieselben Arbeitslasten auf einer Vielzahl von Speichergeräten wiederholen, einschließlich Flash-Arrays und einzelnen Speichergeräten. Auf der Array-Seite nutzen wir unseren Cluster aus Dell PowerEdge R740xd-Servern:
Profile:
- 4K Random Read: 100 % Read, 128 Threads, 0-120 % Iorate
- 4K Random Write: 100 % Schreiben, 64 Threads, 0-120 % Iorate
- 64K sequentielles Lesen: 100 % Lesen, 16 Threads, 0-120 % Leserate
- 64K Sequentielles Schreiben: 100 % Schreiben, 8 Threads, 0-120 % Iorate
- Synthetische Datenbank: SQL und Oracle
- VDI-Vollklon- und Linked-Clone-Traces
Bei der 4K-Spitzenleseleistung erreichte das Newisys mit KumoScale (im weiteren Verlauf dieses Tests als „Speicherknoten“ bezeichnet, da es das einzige betrachtete Gerät ist) während des gesamten Tests eine Leistung von weniger als einer Millisekunde und erreichte einen Spitzenwert von 2,981,084 IOPS mit einem Latenz von 260μs.
Bei der 4K-Spitzenschreibleistung erreichte der Speicherknoten einen Spitzenwert von 1,926,637 IOPS mit einer Latenz von 226 μs.
Bei der Umstellung auf 64K-Spitzenlesevorgänge hatte der Speicherknoten eine Spitzenleistung von 213,765 IOPS oder 13.36 GB/s bei einer Latenz von 441 μs.
Bei sequenziellen Spitzenschreibvorgängen von 64 KB erreichte der Speicherknoten 141,454 IOPS oder 8.83 GB/s mit einer Latenz von 432 μs.
Bei unserem SQL-Workload erreichte der Speicherknoten einen Spitzenwert von 1,361,815 IOPS mit einer Latenz von 179 μs.
Im SQL 90-10-Benchmark sahen wir eine Spitzenleistung von 1,171,467 IOPS bei einer Latenz von nur 210μs.
Der SQL 80-20-Benchmark zeigte, dass der Speicherknoten eine Spitzenleistung von 987,015 IOPS bei einer Latenz von 248 μs erreichte.
Mit dem Oracle Workload erreichte der Speicherknoten eine Spitzenleistung von 883,894 IOPS bei einer Latenz von 280μs.
Der Oracle 90-10 zeigte eine Spitzenleistung von 967,507 IOPS bei einer Latenz von 176μs.
Beim Oracle 80-20 konnte der Speicherknoten 829,765 IOPS mit einer Latenz von 204 μs erreichen.
Als nächstes wechselten wir zu unserem VDI-Klontest „Full and Linked“. Beim VDI Full Clone Boot erreichte der Speicherknoten einen Spitzenwert von 889,591 IOPS mit einer Latenz von 261 μs.
Bei der ersten VDI Full Clone-Anmeldung erreichte der Speicherknoten einen Spitzenwert von 402,840 IOPS mit einer Latenz von 562 μs.
Der VDI Full Clone Monday-Login zeigte eine Spitzenleistung von 331,351 IOPS und eine Latenz von 369μs.
Beim Übergang zu VDI Linked Clone zeigte der Boot-Test eine Spitzenleistung von 488,484 IOPS und eine Latenz von 234 μs.
Im Linked-Clone-VDI-Profil zur Messung der Erstanmeldungsleistung erreichte der Speicherknoten einen Spitzenwert von 194,781 IOPS mit einer Latenz von 318 μs.
In unserem letzten Profil betrachten wir die VDI Linked Clone Monday Login-Leistung. Hier erreichte der Speicherknoten einen Spitzenwert von 247,806 IOPS mit einer Latenz von 498 μs.
Schlussfolgerung
Die KumoScale-Software wurde entwickelt, um die Leistung von Blockspeichern zu maximieren. Sie bündelt NVMe-SSDs, um die richtige Menge an Kapazität und IOPS bereitzustellen, die von Tausenden von Jobinstanzen über NVMe-oF gemeinsam genutzt werden können. Dadurch erhalten Cloud-Benutzer mehr Flexibilität, Skalierbarkeit und Effizienz. Während KumoScale in mehreren verschiedenen Hardwareoptionen zum Erstellen des Speicherknotens verwendet werden kann (Toshiba empfiehlt Intel NVMe-oF bringt den Speicher nicht nur auf nahezu maximale Leistung, KumoScale funktioniert auch mit mehreren Orchestrierungs-Frameworks, darunter Kubernetes, OpenStack, Lenovo XClarity und Intel RSD.
Das von Toshiba KumoScale betriebene Newisys-System kann in puncto Leistung mit Sicherheit für Furore sorgen. Nirgends erreichte der Speicherknoten auch nur annähernd die 1-ms-Marke, die höchste Latenz betrug 562 μs bei der ersten VDI-FC-Anmeldung. Zu den Höhepunkten gehören fast 3 Millionen IOPS beim 4K-Lesen, fast 2 Millionen beim 4K-Schreiben, 1.3 Millionen IOPS beim SQL-Workload, 1.1 Millionen IOPS beim SQL 90-10 und fast 1 Million beim SQL 80-20. Bei einer sequentiellen Leistung von 64 KB erreichte der Speicherknoten 13.36 GB/s Lese- und 8.83 GB/s Schreibgeschwindigkeit.
Es steht zwar außer Frage, dass die Leistung astronomisch ist, doch wenn man KumoScale in den Kontext einbezieht, glänzt es wirklich. Latenz und Leistung sind bei dieser Plattform deutlich besser als bei anderen Nicht-NVMe-oF-Plattformen. Die Latenz liegt näher an der lokalen Speicherleistung, was genau das ist, was das NVMe-oF-Protokoll anstrebt und was die Anwendungen erfordern, für die diese Systeme positioniert sind. Was jedoch wirklich zählt, ist die skalierbare Leistung dieses Systems. Wir haben die Leistung von 8 SSDs in einem Speicherknoten untersucht, wobei Produktionssysteme mehrere Speicherknoten mit jeweils eigenen Speicherpools hätten. Die Leistung in diesem beabsichtigten Szenario übertrifft herkömmliche Speicher-Array-Metriken mit Leichtigkeit und macht KumoScale zu einem Game-Changer, wenn es um NVMe-oF-Arrays geht. Toshiba hat bei der Bereitstellung von Leistungseffizienz mit KumoScale hervorragende Arbeit geleistet und verfügt sogar über eine grafische Benutzeroberfläche für Evaluierung und Entwicklung. In Kombination mit dem Newisys-Gehäuse wird diese Lösung sicherlich in großen Rechenzentren erfolgreich sein, die die Durchsatz- und Latenzvorteile der Toshiba KumoScale-Software nutzen können.
Besprechen Sie diese Rezension
Melden Sie sich für den StorageReview-Newsletter an