Fungible verandert de manier waarop opslagplatforms worden ontworpen door beperkingen van bestaande opslagarchitecturen te verwijderen met de release van de Fungible Storage Cluster, FSC 1600 high-performance storage node. De Fungible Storage Cluster levert een hoogwaardige NVMe/TCP gedesaggregeerde opslagoplossing met lage latentie die volledig transparant is voor toepassingen op hoog niveau. Aangedreven door de Fungible DPU™, is de Fungible Storage Cluster (FSC) een krachtig, veilig, scale-out gedesaggregeerd all-flash storageplatform.
Fungible verandert de manier waarop opslagplatforms worden ontworpen door beperkingen van bestaande opslagarchitecturen te verwijderen met de release van de Fungible Storage Cluster, FSC 1600 high-performance storage node. De Fungible Storage Cluster levert een hoogwaardige NVMe/TCP gedesaggregeerde opslagoplossing met lage latentie die volledig transparant is voor toepassingen op hoog niveau. Aangedreven door de Fungible DPU™, is de Fungible Storage Cluster (FSC) een krachtig, veilig, scale-out gedesaggregeerd all-flash storageplatform.
Een Data Processing Unit (DPU) is in wezen een systeem op een chip. Doorgaans bestaat een DPU uit een multi-core microprocessor, een netwerkinterface en acceleratie-engines die gegevensgerichte taken ontlasten, zoals netwerk-, opslag-, virtualisatie-, beveiligings- en analysefuncties. DPU's en SmartNIC's blijven aan populariteit winnen in datacenters van ondernemingen en cloudproviders.
De Fungibele FSC1600 Opslagcluster
De FS1600 wordt aangedreven door twee Fungible Data Processing Units. Een unieke Fungible-innovatie, de DPU vertegenwoordigt een nieuwe klasse microprocessors die vanaf het begin zijn ontworpen om ongeëvenaarde prestaties en efficiëntie te leveren bij het uitvoeren van infrastructuurdiensten.
Hoewel de meeste opslagplatforms x86-gebaseerd zijn, is de FS1600 geworteld in de fundamentele Fungible DPU-technologie. De DPU is speciaal ontworpen om datagerichte workloads efficiënter uit te voeren dan CPU's en stelt de FS1600 in staat om hogere prestaties te leveren. De FS1600 biedt een willekeurige leessnelheid van 13M IOPS Raw block read performance (4KB), doorvoer van 75 GB/s per node en leeslatenties van +10μs voor prestaties die veel efficiënter zijn dan direct-attached storage (DAS)-systemen, waardoor een 96.5% prestatie-efficiëntiepercentage (PEP).
De DPU-hardwareversnellers omvatten compressie, wiscodering, codering, reguliere expressie, diepe pakketinspectie en DMA, werkend met een lijnsnelheid van 800 Gb/s. Met uitwiscodering worden gegevens, als een knooppunt uitvalt, opnieuw opgebouwd met behulp van pariteit en gegevensbrokken van andere knooppunten, terwijl de host een alternatief pad biedt om toegang te krijgen tot de gegevens via multi-pathing. De FS1600, compatibel met NVMe/TCP en beheersoftware via Container Storage Interface (CSI) voor Kubernetes en Openstack voor VM's, kan een drop-in vervanging zijn voor bestaande opslagsystemen. Er zijn geen vereisten voor speciale agents die CPU-bronnen van de host gebruiken; alleen een standaard NVMe/TCP-stuurprogramma is vereist. En bestaande applicaties behoeven geen wijzigingen.
S1 & F1 DPU-modellen
Er zijn twee Fungible DPU-modellen: de S1 DPU en de F1 DPU. De Fungible-familie van processors maakt gebruik van hetzelfde hardware- en software-co-ontwerp en deelt hetzelfde programmeermodel. Hoewel de F1 DPU is ontworpen voor krachtige stand-alone apparaten zoals opslag-, beveiligings-, AI- en analyseservers, maximaliseert de S1 DPU de prestaties binnen de voetafdruk en het stroombereik van een standaard PCIe-adapter.
De Fungible S1 DPU is geoptimaliseerd voor het combineren van gegevensgerichte berekeningen binnen serverknooppunten en het efficiënt verplaatsen van gegevens tussen knooppunten. Datacentrische berekeningen worden gekenmerkt door stateful verwerking van datastromen met hoge snelheden, meestal door netwerk-, beveiligings- en opslagstacks.
De S1 DPU vergemakkelijkt gegevensuitwisseling tussen serverknooppunten door zijn TrueFabric™-technologie. TrueFabric is een grootschalig IP-over-Ethernet fabric-protocol dat een totale dwarsdoorsnede van het netwerk biedt met een lage gemiddelde en staartlatentie, end-to-end QoS, congestievrije connectiviteit en beveiliging tussen serverknooppunten. Het TrueFabric-protocol voldoet volledig aan de standaarden en is interoperabel met TCP/IP over Ethernet, waardoor het Spine-Leaf-netwerk van het datacenter kan worden gebouwd met standaard standaard Ethernet-switches.
FunOS
Het datavlak voor zowel de S1 als de F1 DPU draait FunOS™, een speciaal gebouwd besturingssysteem dat is geschreven in programmeertalen op hoog niveau (ANSI-C). FunOS beheert de netwerk-, opslag-, beveiligings-, virtualisatie- en analysestacks. Het besturingsvlak voert een standaard besturingssysteem uit (bijv. Linux) en bevat agents waarmee een cluster van zowel S1- als F1-DPU's kan worden beheerd, bestuurd en bewaakt door een set REST API's. Deze REST API's kunnen worden geïntegreerd in standaard of externe orkestratiesystemen, zoals Kubernetes CSI-plug-ins, OpenStack, OpenShift, enz.
Door deze belangrijke mogelijkheden te combineren in één enkele oplossing, maakt de Fungible DPU-familie van processors hyper-desaggregatie en pooling van computer- en opslagbronnen mogelijk, waardoor een krachtige, enorm schaalbare, configureerbare infrastructuur wordt geleverd voor datacenters van de volgende generatie!
Waaruit bestaat een cluster
De FSC™ bestaat uit een cluster van twee of meer Fungible FS1600-opslagdoelknooppunten en drie Fungible Composer-knooppunten. De Fungible Composer-software beheert het besturingsvlak, een gecentraliseerde beheeroplossing die de Fungible Storage Cluster configureert, beheert, orkestreert, bestuurt en implementeert. De Composer-knooppunten bieden services zoals opslag, netwerkbeheer, telemetrie, knooppuntbeheer voor logboekverzameling en een API-gateway die externe toegang biedt tot de services die worden geleverd door de Fungible Composer.
De Fungible Storage Cluster levert een hoogwaardige NVMe/TCP gedesaggregeerde opslagoplossing met lage latentie die volledig transparant is voor toepassingen op hoog niveau. Elke FS1600 ondersteunt maximaal 24 U.2 NVMe/TCP SSD's, en de prestaties schalen lineair van slechts 70 TB tot meerdere PB's.
Gebruikers verhalen
Cloud-native opslag voor Hyper Disaggregation: De FSC biedt cloudaanbieders een alternatief voor conventionele opslag. Door storage te disaggregeren, maakt de FSC onafhankelijke schaling van compute en storage mogelijk, verhoogd gebruik, verminderde server-SKU, verminderde beheercomplexiteit en verhoogde flexibiliteit.
Kunstmatige intelligentie / machinaal leren: Moderne AI/ML-workloads vereisen doorgaans enorme parallelliteit in prestaties, lage latentie en grote capaciteit. De FSC, gecombineerd met zeer schaalbare parallelle bestandssystemen, elimineert opslagknelpunten om ongekende prestaties, latentie en efficiëntie te bereiken voor deze moderne workloads.
Cloud-native krachtige databases: Veel van de hedendaagse krachtige scale-out databases implementeren DAS om te voldoen aan latentievereisten. Deze databases bieden doorgaans duurzaamheid door middel van geclusterde redundantieschema's zoals replicasets of primair-secundaire configuraties. Als een server uitvalt, worden gegevens bewaard op een andere server. De FSC behoudt DAS-achtige latenties en biedt tegelijkertijd verbeterd opslaggebruik en geclusterde redundantie, maar met een lagere capaciteitsoverhead.
Vereenvoudigd IT-beheer
Naast alle prestatievoordelen die bij de FS1600 en Fungible DPU's horen, is er ook een vereenvoudigde beheeraanpak. Fungible levert een beheertool voor beveiligde datacenters met meerdere huurders via één enkel venster. Het Fungible Composer-dashboard maakt de dag van een IT-beheerder productiever en biedt informatie die nodig is om de dagelijkse datacenterfuncties effectief te beheren.
Fungibele componist
Het Fungible Composer-dashboard is eenvoudig te gebruiken met veel details voor tracking, beheer, configuratie en prestatiebewaking. Het bovenste tabblad geeft het aangesloten systeem aan, met een volledige weergave van clusterdetails, IOPS, opslagdetails en eventuele alarmen die aandacht nodig hebben.
De pictogrammen aan de linkerkant van het scherm geven direct toegang tot specifieke beheertools.
Afhankelijk van de details die worden verstrekt bij het implementeren van vervangbare apparaten, geeft de hosttabel de beheerder een snel overzicht van de aangesloten hosts met opties om in te zoomen op een specifieke host.
Voor prestatiegegevens, door het analysepictogram te selecteren, wordt het scherm gevuld met details voor clusterprestaties, waardoor een snel beeld wordt gegeven van IOPS, bandbreedte en latentie.
Het volumedetail geeft een snel overzicht van de status van elk volume. Vanaf hier kunt u inzoomen op afzonderlijke volumes voor meer details.
Implementatie Details
1 x vervangbare FSC1600
- 8 x 100GbE-verbindingen
- 24 x 3.84 TB NVME-apparaten
4 x Dell R740xd
- 1 x vervangbare FC200
- 1 x 100GbE-verbinding
- 1 NVIDIA ConnectX-5
- 1 x 100GbE-verbinding
- 2 x Intel Xeon Gold 6130 CPU @ 2.10 GHz
- 1 DRAM van 256 GB
Volumes
- 192 100G RAW-volumes in totaal
- 16 x 4K RAW-volumes per host
- 16 x 8K RAW-volumes per host
- 16 x 16K RAW-volumes per host
Testproces
De testvoorbereiding omvatte het preconditioneren van alle volumes met een schrijfworkload om ze te vullen voordat de testworkloads werden gestart. Volumes werden aangepast aan de blokgrootte van de toegepaste werklast. Voor het testen werden 4K-, 8K- en 16K-volumes gebruikt voor respectievelijk de 4K random, 8K random en 64K sequentiële workloads. We maakten gebruik van het NVMe over TCP-protocol en met een enkel knooppunt werd de opslag getest zonder een beveiligingsschema.
Elke FIO-iteratie tussen de Fungible DPU's of de 100GbE NIC's was gebalanceerd om een vergelijkbaar latentieprofiel te bieden. De 100GbE NIC-workload werd vervolgens verhoogd om hogere prestaties te stimuleren, wat resulteerde in meer latentie en CPU-gebruik.
Tijdens de eerste testfase werden de FIO-jobs gekoppeld aan het NUMA-knooppunt waar de kaarten werden geïnstalleerd. De DPU of NIC is tussen elke test verwisseld en in hetzelfde PCIe-slot geplaatst. Op serverniveau was geen speciale afstemming nodig, behalve het instellen van het server-BIOS-profiel op Prestaties. Voor elke loadgen hebben we Ubuntu 20.04.2 Live Server geïnstalleerd.
Vervangbare FS1600 Samenvatting prestatieresultaten
Fungibele FC200 IOPS
Werkdruk | Gastheer 1 | Gastheer 2 | Gastheer 3 | Gastheer 4 |
4k leest | 2019k | 2015k | 2016k | 2012k |
4k schrijft | 2244k | 2020k | 2280k | 2203k |
64 leest | 167k | 166k | 166k | 166k |
64k schrijft | 161k | 168k | 164k | 186k |
8k 70r/30w | 1118k / 479k | 1105k / 474k | 1075k / 461k | 1117k / 479k |
Fungibele FC200-bandbreedte
Werkdruk | Gastheer 1 | Gastheer 2 | Gastheer 3 | Gastheer 4 |
4k leest | 7886 MiB/s | 7871 MiB/s | 7873 MiB/s | 7858 MiB/s |
4k schrijft | 8766 MiB/s | 7890 MiB/s | 8905 MiB/s | 8606 MiB/s |
64 leest | 9.80 GiB/s | 10.1 GiB/s | 10.2 GiB/s | 10.1 GiB/s |
64k schrijft | 8732 MiB/s | 10.2 GiB/s | 11.3 GiB/s | 11.4 GiB/s |
8k 70r/30w | 8732 MiB /3743 MiB/s | 8632 MiB/3699 MiB/s | 8395 MiB/3598 MiB/s | 8729 MiB /3741 MiB/s |
100GbE NIC-IOPS
Werkdruk | Gastheer 1 | Gastheer 1 opgevoerd | Gastheer 2 | Gastheer 3 | Gastheer 4 |
4k leest | 980k | 2019k | 1108k | 1102k | 1120k |
4k schrijft | 968k | 2776k | 494k | 1025k | 1011k |
64 leest | 140k | 118k | 125k | 141k | 140k |
64k schrijft | 72.5k | 179k | 40.1k | 100k | 47.0k |
8k 70r/30w | 498k / 213k | 1147k / 491k | 597k / 256k | 567k / 243k | 595k / 255k |
100GbE NIC-bandbreedte
Werkdruk | Gastheer 1 | Gastheer 1 opgevoerd | Gastheer 2 | Gastheer 3 | Gastheer 4 |
4K lezen |
3828 MiB/s | 7887 MiB/s | 4330 MiB/s | 4303 MiB/s | 4374 MiB/s |
4K schrijven |
3783 MiB/s | 10.6 GiB/s | 1931 MiB/s | 4005 MiB/s | 3950 MiB/s |
64K lezen | 8761 MiB/s | 7269 MiB/s | 7804 MiB/s | 8832 MiB/s | 8753 MiB/s |
64K schrijven |
4529 MiB/s | 10.9 GiB/s | 2505 MiB/s | 6251 MiB/s | 3000 MiB/s |
8K 70R/30W | 3889 MiB/1667 MiB/s | 8958 MiB/3839 MiB/s | 4663 MiB/1998 MiB/s | 4427 MiB/1897 MiB/s | 4646 MiB/1991 MiB/s |
De Vervangbare FS1600 is een Uitvoerder
We wisten bij het ingaan op deze review dat de Fungible FS1600 snel was; daar bestond geen twijfel over. Hoewel de enkele kaarten in elke host verzadigd waren, inclusief de DPU en NIC, had de array nog steeds prestatie over. De primaire focus was hoe de NIC's en DPU's zich verhouden voor NVMe/TCP-workloads die dezelfde opslagarray gebruiken met vergelijkbare testscenario's. DPU's hebben ongelooflijke voordelen gebracht op de opslagmarkt. Ze kunnen activiteit wegleiden van de CPU, waardoor deze vrijkomt om andere taken uit te voeren, zoals applicatieworkloads met behulp van die I/O of bandbreedte. Door onze focus te beperken tot een enkele host, zien we die voordelen.
Fungibele DPU
Als u de gemiddelde latentie van elke werklast vergelijkbaar houdt, kunt u meteen zien dat de DPU ongeveer twee keer zoveel prestaties kan leveren als de NIC. Hier hebben we 2.02 miljoen IOPS 4K willekeurig gelezen van de Fungible DPU gemeten, met een gemiddelde latentie van 0.474 ms. Als we kijken naar het real-time CPU-gebruik tijdens deze werklast, kunnen we zien dat de werklast beperkt is tot de CPU-kernen die zijn opgegeven in de FIO-werklast.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=5 –numjobs=12 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 –enherhalen=XNUMX
100 GbE-netwerkkaart
Vervolgens zijn we overgestapt op de 100GbE NIC, die 980 IOPS kan aansturen met een gemiddelde latentie van 0.39 ms. De IO-diepte en het aantal taken zijn verminderd ten opzichte van de DPU om de latentie onder controle te houden, maar als je naar het CPU-gebruik kijkt, zie je snel waar de voordelen van de DPU vandaan komen. Terwijl de NIC dezelfde CPU-kernen kreeg toegewezen in de FIO-taak , had het een veel breder systeemgebruik. Er is een wisselwerking tussen CPU-gebruik voor back-endprocessen (NIC's, adapters, enz.) in een productieserver versus front-endprocessen zoals applicatieworkloads. Hier zien we dat de NIC-driver CPU-cycli verbruikt terwijl de DPU geïnternaliseerd bleef.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=4 –numjobs=6 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 –enherhalen=XNUMX
100GbE NIC versneld
Ten slotte zijn we overgestapt op de afgestemde 100GbE NIC-workload, die hetzelfde prestatieniveau zou kunnen bereiken als de DPU, ongeveer 2.02 miljoen IOPS. De kosten van die hogere snelheid zijn echter de latentie, die aanzienlijk is toegenomen tot 2.6 ms en een hogere pieklatentie. Dit was van het schalen van de iodiepte van 4 naar 16 en het aantal taken van 6 naar 20. Hoewel de focus misschien gericht is op de toegenomen latentie, kun je zien dat bijna alle systeembronnen gericht zijn op het CPU-gebruik. de I/O-activiteit, waardoor er niet veel overblijft voor andere processen. Voor bedrijven die hun serverimplementaties dichter en efficiënter willen maken, is het gemakkelijk in te zien dat niet alle I/O hetzelfde is en hoe snel DPU's de opslagmarkt veranderen.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=16 –numjobs=20 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=14-63 –randrepeat= 0
Laatste woorden
We werken nu al een aantal weken met de Fungible FS1600 en hun DPU's. Hoewel de array zelf geen ingewikkelde bekabeling of wijzigingen vereist, wilden we de analyse grondig uitvoeren om de impact van DPU's grondig te begrijpen. Het is niet zo dat DPU's zelf gloednieuw zijn, maar ze komen eindelijk commercieel beschikbaar in enterprise-grade oplossingen, niet alleen in wetenschappelijke projecten. En om duidelijk te zijn, DPU-implementaties zijn niet allemaal hetzelfde, dus het is van cruciaal belang om de implicaties voor infrastructuur en prestaties bij ontwerpbeslissingen te begrijpen.
In deze DPU-wereld valt Fungible op als vrij uniek. Toen het bedrijf in 2015 begon, gingen ze op zoek naar een oplossing op maat, waarmee ze eind 2016 veel geld binnenhaalden om het bedrijf op te bouwen. Dit was ongeveer toen Mellanox hun eerste versie van een DPU aankondigde, genaamd BlueField. Hoewel zou kunnen worden beweerd dat Fungible er goed aan zou hebben gedaan om BlueField te adopteren, heeft hun eigen weg gaan geresulteerd in een substantieel voordeel op het gebied van technologie en leiderschap. Fungible heeft volledige controle over zijn stack en kan eenvoudig gebruik maken van DPU's bij zowel de klant als het doelwit. Of niet, de beslissing ligt bij de klanten. Maar tijdens onze tests zien we aanzienlijke voordelen in het end-to-end gaan met Fungible.
Fungible komt binnen met DPU's die worden gebruikt in de opslagarray en host maakt een beeld compleet dat een enorm voordeel biedt in termen van prestaties. DPU's ontlasten bronnen die anders aan de systeemprocessor zouden worden toevertrouwd, wat een interessante combinatie vormt bij gebruik aan beide kanten van de vergelijking. Wanneer u gebruik kunt maken van de Fungible FC200 in plaats van een traditionele NIC, ziet u enorme aanzienlijke winsten met I/O-snelheid en een lager CPU-gebruik. Alleen al kijkend naar onze 4K willekeurige leesoverdracht, kon de FC200 meer dan 2 miljoen IOPS aansturen met een latentie van 0.474 ms, terwijl de NIC ongeveer 1 miljoen IOPS kon doen met 0.39 ms. Het opvoeren van de NIC om 2 miljoen IOPS aan te sturen was mogelijk, maar kostte aanzienlijke latentie- en systeemresourcekosten.
DPU's als klasse hebben een enorm potentieel als het gaat om het ontsluiten van de native prestaties die beschikbaar zijn in flash-opslag. Hoewel dit vandaag al een echte uitspraak is, wordt de wiskunde nog gunstiger voor DPU's naarmate technologie zoals Gen5 SSD's en snellere interconnects op de markt komen. De x86-premie betalen om PCIe-lanes te beheren, heeft gewoon geen zin als het gaat om applicaties die kunnen profiteren van deze componenten en legacy-architecturen zijn gewoon niet zo schaalbaar.
Fungible heeft overtuigende hardware en software met de FS1600-opslagnode en Accelerator Cards. Ze hebben onlangs ook hun zinnen gezet op GPU's uit elkaar halen, waardoor klanten een completere stack krijgen voor HPC- en AI-workloads. Er zullen meerdere winnaars zijn in de snel opkomende DPU-ruimte, maar Fungible is er zeker een om in de gaten te houden. Organisaties die het meeste uit hun opslag willen halen, moeten zeker eens een FS1600 uitproberen.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed