Start Unternehmen Fungible FS1600 verschiebt Hyperscale-Speicher ins Rechenzentrum

Fungible FS1600 verschiebt Hyperscale-Speicher ins Rechenzentrum

by Harold Fritts

Fungible verändert die Art und Weise, wie Speicherplattformen entworfen werden, indem es mit der Veröffentlichung des Fungible Storage Clusters, dem FSC 1600-Hochleistungsspeicherknoten, Einschränkungen bestehender Speicherarchitekturen beseitigt. Der Fungible Storage Cluster bietet eine leistungsstarke, disaggregierte NVMe/TCP-Speicherlösung mit geringer Latenz, die für Anwendungen auf hoher Ebene vollständig transparent ist. Der Fungible Storage Cluster (FSC) basiert auf der Fungible DPU™ und ist eine leistungsstarke, sichere, skalierbare, disaggregierte All-Flash-Speicherplattform.

Fungible verändert die Art und Weise, wie Speicherplattformen entworfen werden, indem es mit der Veröffentlichung des Fungible Storage Clusters, dem FSC 1600-Hochleistungsspeicherknoten, Einschränkungen bestehender Speicherarchitekturen beseitigt. Der Fungible Storage Cluster bietet eine leistungsstarke, disaggregierte NVMe/TCP-Speicherlösung mit geringer Latenz, die für Anwendungen auf hoher Ebene vollständig transparent ist. Der Fungible Storage Cluster (FSC) basiert auf der Fungible DPU™ und ist eine leistungsstarke, sichere, skalierbare, disaggregierte All-Flash-Speicherplattform.

Fungibler FS1600

Fungibles FS1600 Flash-Array

Eine Datenverarbeitungseinheit (DPU) ist im Wesentlichen ein System auf einem Chip. Typischerweise besteht eine DPU aus einem Multi-Core-Mikroprozessor, einer Netzwerkschnittstelle und Beschleunigungs-Engines, die datenzentrierte Aufgaben wie Netzwerk-, Speicher-, Virtualisierungs-, Sicherheits- und Analysefunktionen auslagern. DPUs und SmartNICs erfreuen sich in Rechenzentren von Unternehmen und Cloud-Anbietern immer größerer Beliebtheit.

Die Fungibles FSC1600 Speichercluster

Der FS1600 wird von zwei fungiblen Datenverarbeitungseinheiten angetrieben. Als einzigartige fungible Innovation stellt die DPU eine neue Klasse von Mikroprozessoren dar, die von Grund auf so konzipiert sind, dass sie bei der Ausführung von Infrastrukturdiensten unübertroffene Leistung und Effizienz bieten.

Fungible FS1600-Interna

Fungible FS1600-Interna

Während die meisten Speicherplattformen x86-basiert sind, basiert der FS1600 auf der grundlegenden Fungible DPU-Technologie. Die DPU wurde speziell für die effizientere Ausführung datenzentrierter Workloads als CPUs entwickelt und ermöglicht dem FS1600 eine höhere Leistung. Der FS1600 verfügt über eine zufällige Leserate von 13 Mio. IOPS. Rohblock-Leseleistung (4 KB), einen Durchsatz von 75 GB/s pro Knoten und Leselatenzen von +10 μs für eine viel effizientere Leistung als Direct-Attached-Storage-Systeme (DAS) und liefert a 96.5 % Leistungseffizienzprozentsatz (PEP).

Fungible FS1600 voll im Inneren

Die DPU-Hardwarebeschleuniger umfassen Komprimierung, Erasure Coding, Verschlüsselung, reguläre Ausdrücke, Deep Packet Inspection und DMA und arbeiten mit einer Leitungsrate von 800 Gbit/s. Beim Erasure Coding werden die Daten beim Ausfall eines Knotens mithilfe von Parität und Datenblöcken von anderen Knoten neu erstellt, während der Host über Multipathing einen alternativen Pfad für den Zugriff auf die Daten bereitstellt. Der FS1600 ist kompatibel mit NVMe/TCP und Verwaltungssoftware über Container Storage Interface (CSI) für Kubernetes und Openstack für VMs und kann ein direkter Ersatz für bestehende Speichersysteme sein. Es gibt keine Anforderungen für spezielle Agenten, die Host-CPU-Ressourcen nutzen; Es ist lediglich ein Standard-NVMe/TCP-Treiber erforderlich. Und bestehende Anwendungen erfordern keine Änderungen.

S1- und F1-DPU-Modelle

Es gibt zwei fungible DPU-Modelle: die S1 DPU und die F1 DPU. Die Fungible-Prozessorfamilie nutzt das gleiche Hardware- und Software-Co-Design und nutzt das gleiche Programmiermodell. Während die F1-DPU jedoch für eigenständige Hochleistungsgeräte wie Speicher-, Sicherheits-, KI- und Analyseserver konzipiert ist, maximiert die S1-DPU die Leistung innerhalb des Platzbedarfs und der Leistungsaufnahme eines Standard-PCIe-Adapters.

Fungible FS1600 DPU

Die Fungible S1 DPU ist für die Kombination datenzentrierter Berechnungen innerhalb von Serverknoten und die effiziente Übertragung von Daten zwischen Knoten optimiert. Datenzentrierte Berechnungen zeichnen sich durch eine zustandsbehaftete Verarbeitung von Datenströmen mit hohen Raten aus, typischerweise durch Netzwerk-, Sicherheits- und Speicherstapel.

Fungible FS1600-Bak-Ports

Fungible FS1600-Heckanschlüsse

Die S1 DPU erleichtert den Datenaustausch zwischen Serverknoten durch ihre TrueFabric™-Technologie. TrueFabric ist ein groß angelegtes IP-over-Ethernet-Fabric-Protokoll, das die gesamte Netzwerkquerschnittsbandbreite mit geringer Durchschnitts- und Tail-Latenz, End-to-End-QoS, überlastungsfreier Konnektivität und Sicherheit zwischen Serverknoten bietet. Das TrueFabric-Protokoll ist vollständig standardkonform und mit TCP/IP über Ethernet interoperabel. Dadurch wird sichergestellt, dass das Spine-Leaf-Netzwerk des Rechenzentrums mit handelsüblichen Standard-Ethernet-Switches aufgebaut werden kann.

FunOS

Auf der Datenebene sowohl der S1- als auch der F1-DPU läuft FunOS™, ein speziell entwickeltes Betriebssystem, das in höheren Programmiersprachen (ANSI-C) geschrieben ist. FunOS betreibt die Netzwerk-, Speicher-, Sicherheits-, Virtualisierungs- und Analyse-Stacks. Die Steuerungsebene führt ein Standardbetriebssystem (z. B. Linux) aus und enthält Agenten, die es ermöglichen, einen Cluster aus S1- und F1-DPUs durch eine Reihe von REST-APIs zu verwalten, zu steuern und zu überwachen. Diese REST-APIs können in Standard- oder Drittanbieter-Orchestrierungssysteme wie Kubernetes CSI-Plugins, OpenStack, OpenShift usw. integriert werden.

Durch die Kombination dieser Schlüsselfunktionen in einer einzigen Lösung ermöglicht die Fungible DPU-Prozessorfamilie eine Hyperdisaggregation und Bündelung von Rechen- und Speicherressourcen – und liefert so eine hochleistungsfähige, massiv skalierbare, zusammensetzbare Infrastruktur für Rechenzentren der nächsten Generation!

Was macht einen Cluster aus?

Das FSC™ besteht aus einem Cluster aus zwei oder mehr Fungible FS1600-Speicherzielknoten und drei Fungible Composer-Knoten. Die Fungible Composer-Software verwaltet die Steuerungsebene, eine zentralisierte Verwaltungslösung, die den Fungible Storage Cluster konfiguriert, verwaltet, orchestriert, steuert und bereitstellt. Die Composer-Knoten stellen Dienste wie Speicherung, Netzwerkverwaltung, Telemetrie, Knotenverwaltung für die Protokollerfassung und ein API-Gateway bereit, das externen Zugriff auf die vom Fungible Composer bereitgestellten Dienste ermöglicht.

Fungible FS1600 lackierter Deckel mit SSD

Der Fungible Storage Cluster bietet eine leistungsstarke, disaggregierte NVMe/TCP-Speicherlösung mit geringer Latenz, die für Anwendungen auf hoher Ebene vollständig transparent ist. Jeder FS1600 unterstützt bis zu 24 U.2 NVMe/TCP SSDs und die Leistung skaliert linear von nur 70 TB bis hin zu mehreren PBs.

aus der Praxis

Cloud-nativer Speicher für Hyper Disaggregation: Der FSC bietet Cloud-Anbietern eine Alternative zum herkömmlichen Speicher. Durch die Aufteilung des Speichers ermöglicht der FSC eine unabhängige Skalierung von Rechenleistung und Speicher, eine höhere Auslastung, eine Reduzierung der Server-SKU, eine geringere Verwaltungskomplexität und eine höhere Agilität.

Künstliche Intelligenz / Maschinelles Lernen: Moderne KI/ML-Workloads erfordern typischerweise eine massive Parallelität der Leistung, geringe Latenz und große Kapazität. Der FSC beseitigt in Kombination mit hochskalierbaren parallelen Dateisystemen Speicherengpässe und erreicht so eine beispiellose Leistung, Latenz und Effizienz für diese modernen Workloads.

Cloudnative Hochleistungsdatenbanken: Viele der heutigen Hochleistungs-Scale-Out-Datenbanken setzen DAS ein, um Latenzanforderungen zu erfüllen. Diese Datenbanken bieten in der Regel Haltbarkeit durch geclusterte Redundanzschemata wie Replikatsätze oder Primär-Sekundär-Konfigurationen. Fällt ein Server aus, bleiben die Daten auf einem anderen Server erhalten. Der FSC bewahrt DAS-ähnliche Latenzen und bietet gleichzeitig eine verbesserte Speicherauslastung und Cluster-Redundanz, jedoch bei geringerem Kapazitäts-Overhead.

Vereinfachtes IT-Management

Zusätzlich zu allen Leistungsvorteilen, die der FS1600 und die Fungible DPUs mit sich bringen, gibt es auch einen vereinfachten Verwaltungsansatz. Fungible bietet ein Verwaltungstool für mandantenfähige, sichere Rechenzentren über eine einzige Oberfläche. Das Fungible Composer-Dashboard macht den Tag eines IT-Administrators produktiver und stellt Informationen bereit, die für die effektive Verwaltung der täglichen Rechenzentrumsfunktionen erforderlich sind.

Fungibler Komponist

Das Fungible Composer-Dashboard ist einfach zu verwenden und bietet zahlreiche Details zur Nachverfolgung, Verwaltung, Konfiguration und Leistungsüberwachung. Auf der oberen Registerkarte wird das angeschlossene System angezeigt, mit einer vollständigen Anzeige der Clusterdetails, IOPS, Speicherdetails sowie aller Alarme, die Aufmerksamkeit erfordern.

Die Symbole auf der linken Seite des Displays bieten sofortigen Zugriff auf bestimmte Verwaltungstools.

Abhängig von den bei der Bereitstellung fungibler Geräte bereitgestellten Details bietet die Hosttabelle dem Administrator einen schnellen Überblick über die angeschlossenen Hosts mit Optionen zum Drilldown auf einen bestimmten Host.

Für Leistungsdaten wird durch Auswahl des Analysesymbols der Bildschirm mit Details zur Clusterleistung gefüllt und bietet einen schnellen Überblick über IOPS, Bandbreite und Latenz.

Die Volume-Details bieten einen schnellen Überblick über den Zustand jedes Volumes. Von hier aus können Sie für weitere Details einen Drilldown zu den einzelnen Volumes durchführen.

Bereitstellungsdetails

1 x Fungible FSC1600

  • 8 x 100GbE-Verbindungen
  • 24 x 3.84 TB NVME-Geräte

4 x Dell R740xd

  • 1 x fungibler FC200
    • 1 x 100GbE-Verbindung
  • 1 x NVIDIA ConnectX-5
    • 1 x 100GbE-Verbindung
  • 2 x Intel Xeon Gold 6130 CPU mit 2.10 GHz
    • 1 256 GB DRAM

Volumes

  • Insgesamt 192 100G RAW-Volumen
  • 16 x 4K RAW-Volumes pro Host
  • 16 x 8K RAW-Volumes pro Host
  • 16 x 16K RAW-Volumes pro Host

Testprozess

Die Testvorbereitung umfasste die Vorkonditionierung aller Volumes mit einer Schreib-Workload, um sie zu füllen, bevor Test-Workloads gestartet wurden. Die Größe der Volumes wurde an die Blockgröße der angewendeten Arbeitslast angepasst. Zum Testen wurden 4K-, 8K- und 16K-Volumes für die 4K-Zufalls-, 8K-Zufalls- bzw. 64K-Sequenz-Workloads verwendet. Wir nutzten das NVMe-über-TCP-Protokoll und mit einem einzelnen Knoten wurde der Speicher ohne Schutzschema getestet.

Jede FIO-Iteration zwischen den Fungible DPUs oder den 100GbE-NICs wurde ausgeglichen, um ein ähnliches Latenzprofil zu bieten. Anschließend wurde die 100-GbE-NIC-Arbeitslast erhöht, um eine höhere Leistung zu erzielen, was zu mehr Latenz und CPU-Auslastung führte.

Während der ersten Testphase wurden die FIO-Jobs mit dem NUMA-Knoten verknüpft, auf dem die Karten installiert waren. Die DPU oder NIC wurde zwischen jedem Test ausgetauscht und im selben PCIe-Steckplatz untergebracht. Außer der Einstellung des Server-BIOS-Profils auf „Leistung“ war auf Serverebene keine besondere Optimierung erforderlich. Für jeden Loadgen haben wir Ubuntu 20.04.2 Live Server installiert.

Fungibler FS1600 Zusammenfassung der Leistungsergebnisse

Fungible FC200 IOPS

Arbeitsbelastung Gastgeber 1 Gastgeber 2 Gastgeber 3 Gastgeber 4
4k Lesevorgänge 2019K 2015K 2016K 2012K
4k schreibt 2244K 2020K 2280K 2203K
64 liest 167K 166K 166K 166K
64k schreibt 161K 168K 164K 186K
8k 70r/30w 1118k / 479k 1105k / 474k 1075k / 461k 1117k / 479k

Fungible FC200-Bandbreite

Arbeitsbelastung Gastgeber 1 Gastgeber 2 Gastgeber 3 Gastgeber 4
4k Lesevorgänge 7886 MB/s 7871 MB/s 7873 MB/s 7858 MB/s
4k schreibt 8766 MB/s 7890 MB/s 8905 MB/s 8606 MB/s
64 liest 9.80 GiB/s 10.1 GiB/s 10.2 GiB/s 10.1 GiB/s
64k schreibt 8732 MB/s 10.2 GiB/s 11.3 GiB/s 11.4 GiB/s
8k 70r/30w 8732MiB/3743MiB/s 8632MiB/3699MiB/s 8395MiB/3598MiB/s 8729MiB/3741MiB/s

100-GbE-NIC-IOPS

Arbeitsbelastung Gastgeber 1 Host 1 hochgefahren Gastgeber 2 Gastgeber 3 Gastgeber 4
4k Lesevorgänge 980K 2019K 1108K 1102K 1120K
4k schreibt 968K 2776K 494K 1025K 1011K
64 liest 140K 118K 125K 141K 140K
64k schreibt 72.5K 179K 40.1K 100K 47.0K
8k 70r/30w 498k / 213k 1147k / 491k 597k / 256k 567k / 243k 595k / 255k

100-GbE-NIC-Bandbreite

Arbeitsbelastung Gastgeber 1 Host 1 hochgefahren Gastgeber 2 Gastgeber 3 Gastgeber 4
4K Lesen
3828 MB/s 7887 MB/s 4330 MB/s 4303 MB/s 4374 MB/s
4K Schreiben
3783 MB/s 10.6 GiB/s 1931 MB/s 4005 MB/s 3950 MB/s
64K Lesen 8761 MB/s 7269 MB/s 7804 MB/s 8832 MB/s 8753 MB/s
64K Schreiben
4529 MB/s 10.9 GiB/s 2505 MB/s 6251 MB/s 3000 MB/s
8K 70R/30W 3889MiB/1667MiB/s 8958MiB/3839MiB/s 4663MiB/1998MiB/s 4427MiB/1897MiB/s 4646MiB/1991MiB/s

Die Fungibler FS1600 ist ein Performer

Schon bei diesem Test wussten wir, dass der Fungible FS1600 schnell ist; daran bestand kein Zweifel. Obwohl die einzelnen Karten in jedem Host, einschließlich DPU und NIC, ausgelastet waren, verfügte das Array immer noch über Leistungsreserven. Der Hauptschwerpunkt lag auf dem Vergleich der NICs und DPUs bei NVMe/TCP-Workloads, die dasselbe Speicher-Array mit ähnlichen Testszenarien nutzen. DPUs haben dem Speichermarkt unglaubliche Vorteile gebracht. Sie können Aktivitäten von der CPU entlasten und diese für die Bewältigung anderer Aufgaben wie Anwendungs-Workloads freigeben, die diesen I/O oder diese Bandbreite nutzen. Indem wir unseren Fokus auf einen einzelnen Host beschränken, sehen wir diese Vorteile.

Fungible DPU

Wenn Sie die durchschnittliche Latenz jedes Workloads ähnlich halten, können Sie auf Anhieb erkennen, dass die DPU etwa doppelt so viel Leistung wie die NIC erzielen kann. Hier haben wir 2.02 Mio. IOPS 4K-Zufallslesevorgänge von der Fungible DPU gemessen, mit einer durchschnittlichen Latenz von 0.474 ms. Wenn wir uns die Echtzeit-CPU-Auslastung während dieser Arbeitslast ansehen, können wir erkennen, dass die Arbeitslast auf die in der FIO-Arbeitslast angegebenen CPU-Kerne beschränkt ist.

fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –io Depth=5 –numjobs=12 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 –randrepeat=XNUMX

100-GbE-NIC

Als nächstes sind wir auf die 100-GbE-NIC umgestiegen, die 980 IOPS mit einer durchschnittlichen Latenz von 0.39 ms leisten kann. Die E/A-Tiefe und die Anzahl der Jobs wurden gegenüber der DPU reduziert, um die Latenz in Schach zu halten, aber wenn man sich die CPU-Auslastung ansieht, sieht man schnell, wo die Vorteile der DPU liegen. Während der NIC im FIO-Job die gleichen CPU-Kerne zugewiesen wurden , es hatte eine viel breitere Systemauslastung. Es gibt einen Kompromiss zwischen der CPU-Nutzung für Back-End-Prozesse (NICs, Adapter usw.) in einem Produktionsserver und Front-End-Prozessen wie Anwendungs-Workloads. Hier sehen wir, wie der NIC-Treiber CPU-Zyklen verbraucht, während die DPU internalisiert bleibt.

fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –io Depth=4 –numjobs=6 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 –randrepeat=XNUMX

100-GbE-NIC erhöht

Schließlich sind wir auf die optimierte 100-GbE-NIC-Workload umgestiegen, die das gleiche Leistungsniveau wie die DPU erreichen konnte, etwa 2.02 Mio. IOPS. Der Preis dieser höheren Geschwindigkeit ist jedoch die Latenz, die deutlich auf 2.6 ms und eine höhere Spitzenlatenz anstieg. Dies geschah durch die Skalierung der io Depth von 4 auf 16 und der Anzahl der Jobs von 6 auf 20. Während der Fokus möglicherweise auf der erhöhten Latenz lag, können Sie bei Betrachtung der CPU-Auslastung erkennen, dass fast alle Systemressourcen im Fokus stehen die E/A-Aktivität, so dass nicht viel für andere Prozesse übrig bleibt. Für Unternehmen, die ihre Serverbereitstellungen dichter und effizienter gestalten möchten, ist es leicht zu erkennen, dass nicht alle E/A-Vorgänge gleich sind und wie DPUs den Speichermarkt schnell verändern.

fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –io Depth=16 –numjobs=20 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=14-63 –randrepeat= 0

Zusammenfassung

Wir arbeiten nun schon seit einigen Wochen mit dem Fungible FS1600 und seinen DPUs. Während das Array selbst keine aufwändige Verkabelung oder Änderungen erfordert, wollten wir die Analyse gründlich durchführen, um die Auswirkungen von DPUs genau zu verstehen. Es ist nicht so, dass DPUs selbst brandneu sind, aber sie werden endlich in Lösungen der Unternehmensklasse kommerziell verfügbar, nicht nur in wissenschaftlichen Projekten. Und um es klarzustellen: DPU-Implementierungen sind nicht alle gleich, daher ist es von entscheidender Bedeutung, die Auswirkungen auf Infrastruktur und Leistung bei Designentscheidungen zu verstehen.

In dieser DPU-Welt ist Fungible einzigartig. Als das Unternehmen im Jahr 2015 gegründet wurde, suchten sie nach einer maßgeschneiderten Lösung und nahmen Ende 2016 erhebliche Mittel für den Aufbau des Unternehmens auf. Ungefähr zu diesem Zeitpunkt kündigte Mellanox seine erste Version einer DPU mit dem Namen BlueField an. Obwohl man argumentieren könnte, dass Fungible gut daran getan hätte, BlueField zu übernehmen, hat die eigene Vorgehensweise zu einem erheblichen Technologie- und Führungsvorteil geführt. Fungible hat die volle Kontrolle über seinen Stack und kann DPUs sowohl beim Client als auch beim Ziel problemlos nutzen. Oder nicht, die Entscheidung liegt beim Kunden. Aber in unseren Tests sehen wir erhebliche Vorteile in der End-to-End-Lösung mit Fungible.

Die Einführung von Fungible mit DPUs im Speicher-Array und Host rundet ein Bild ab, das einen enormen Leistungsvorteil bietet. DPUs verlagern Ressourcen, die andernfalls dem Systemprozessor zugewiesen würden, was eine interessante Kombination darstellt, wenn es auf beiden Seiten der Gleichung verwendet wird. Wenn Sie den Fungible FC200 anstelle einer herkömmlichen Netzwerkkarte nutzen können, sehen Sie enorme Fortschritte bei der E/A-Geschwindigkeit sowie eine geringere CPU-Auslastung. Betrachtet man allein unsere 4K-Zufallsleseübertragung, war der FC200 in der Lage, über 2 Mio. IOPS bei einer Latenz von 0.474 ms zu erreichen, während die Netzwerkkarte etwa 1 Mio. IOPS bei 0.39 ms leisten konnte. Das Hochfahren der Netzwerkkarte auf 2 Mio. IOPS war möglich, allerdings mit erheblichen Kosten für Latenz und Systemressourcen.

Fungible FC200 DPU

Fungible FC200 DPU

DPUs als Klasse haben ein enormes Potenzial, wenn es darum geht, die im Flash-Speicher verfügbare native Leistung freizusetzen. Während dies bereits heute eine zutreffende Aussage ist, wird die Rechnung für DPUs noch günstiger, da Technologien wie Gen5-SSDs und schnellere Verbindungen auf den Markt kommen. Den x86-Aufschlag für die Verwaltung von PCIe-Lanes zu zahlen, macht einfach keinen Sinn, wenn es um Anwendungen geht, die diese Komponenten nutzen können, und Legacy-Architekturen einfach nicht so skalierbar sind.

Fungible verfügt mit dem FS1600-Speicherknoten und den Beschleunigerkarten über überzeugende Hardware und Software. Sie haben es auch kürzlich ins Visier genommen GPUs disaggregierenund bietet Kunden einen umfassenderen Stack für HPC- und KI-Workloads. Im schnell wachsenden DPU-Bereich wird es mehrere Gewinner geben, aber Fungible ist auf jeden Fall einer, den man im Auge behalten sollte. Unternehmen, die das Beste aus ihrem Speicher herausholen möchten, sollten auf jeden Fall einen FS1600 ausprobieren.

Fungibler Speichercluster

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed