Home Enterprise NVIDIA Bluefield-2 DPU levert recordbrekende prestaties

NVIDIA Bluefield-2 DPU levert recordbrekende prestaties

by Harold Frits

NVIDIA zet de evolutie van de Data Processing Unit (DPU) voort met de release van de NVIDIA BlueField-2. De NVIDIA BlueField-2 DPU wordt aangeprezen als de datacenterinfrastructuur-op-een-chip en geoptimaliseerd voor enterprise cloud- en HPC-workloads. BlueField-2 combineert de NVIDIA ConnectX-6 Dx-netwerkadapter met een reeks Arm-cores en infrastructuurspecifieke offloads en biedt speciaal gebouwde hardwareversnellingsmotoren met volledige softwareprogrammeerbaarheid. Brian had eerder dit jaar een discussie met NVIDIA op een van zijn reguliere podcasts. Je kunt wat krijgen NVIDIA DPU-details hier.

NVIDIA zet de evolutie van de Data Processing Unit (DPU) voort met de release van de NVIDIA BlueField-2. De NVIDIA BlueField-2 DPU wordt aangeprezen als de datacenterinfrastructuur-op-een-chip en geoptimaliseerd voor enterprise cloud- en HPC-workloads. BlueField-2 combineert de NVIDIA ConnectX-6 Dx-netwerkadapter met een reeks Arm-cores en infrastructuurspecifieke offloads en biedt speciaal gebouwde hardwareversnellingsmotoren met volledige softwareprogrammeerbaarheid. Brian had eerder dit jaar een discussie met NVIDIA op een van zijn reguliere podcasts. Je kunt wat krijgen NVIDIA DPU-details hier.

NVIDIA Bluefield-2

De functies zijn indrukwekkend, maar laten we eerst eens kijken naar de evolutie van de DPU. Als je niet van de geschiedenis houdt, kun je doorgaan naar de details voor de NVIDIA BlueField-2. Het begon in de jaren '90 toen Intel x86-processors ongeëvenaarde kracht leverden aan ondernemingen, gecombineerd met een besturingssysteem. Vervolgens kwam de client/server en vervolgens de komst van gedistribueerde verwerking. Softwareontwikkeling en groeiende databases versnelden snel, wat leidde tot een explosie van hardware-implementatie in het datacenter.

Begin jaren 2000 introduceerde VMware de ESX-hypervisor en virtualiseerde het de x86-CPU, waardoor meerdere instanties van het besturingssysteem op één server konden draaien. VM's waren niet noodzakelijkerwijs nieuw; IBM draaide jarenlang virtuele machines op hun mainframes voordat ze de ESX-hypervisor creëerden. Deze ontwikkeling leidde echter tot een groei van de aggregatie van datacenterinfrastructuur.

Hardware was nu programmeerbaar met ontwikkelaars die code schreven die virtuele machines definieerde en inrichtte zonder handmatige tussenkomst. Dit leidde tot de uiteindelijke push voor migratie naar cloud computing.

VMware besefte het succes van zijn ESX-platform en stapte snel over op opslag- en netwerkvirtualisatie. Om niet achter te blijven, werkte EMC samen met Cisco om hun eigen gevirtualiseerde netwerk- en opslagoplossing te bouwen. Er vond een golf van overnames plaats. VMware ontwikkelde vSANS geïntegreerd in hun vSphere-platform.

De ontwikkeling van deze geconvergeerde infrastructuur wordt Software-Defined Data Center (SDDC) genoemd. De grote spelers, Microsoft, VMware, Cisco en EMC, deden allemaal hun best om de SDDC-markt te veroveren. Alles werd programmeerbaar: I/O, beveiliging, besturingssysteem, applicaties, enz. SDDC was slechts een CPU-component, die de beschikbare middelen belastte die voor andere diensten werden gebruikt.

Al deze convergentie en programmeerbaarheid leidde tot de ontwikkeling van kunstmatige intelligentie (AI), waarbij GPU's werden ontwikkeld om te voldoen aan de verwerkingsvereisten voor deze grafisch-intensieve toepassingen. Dit leidt tot de ontwikkeling van hardware die een deel van de bewerkingen van de CPU ontlast. Netwerkfuncties, doorgaans CPU-intensief, werden ontlast en NVIDIA greep deze nieuwe kans aan en nam Mellanox over om slimme netwerkadapters te ontwikkelen.

GPU's werden slimmer en slimme NIC's speelden een cruciale rol bij het verwijderen van de netwerk- en grafische verwerking uit de algehele SDDC-aggregatie. Uiteindelijk is de ontwikkeling van DPU het resultaat van offloaded intelligentie van de CPU.

De nieuwe NVIDIA BlueField-2 DPU heeft een systeem op een chip gecreëerd dat multi-core CPU, krachtige netwerkinterface en programmeerbare versnellingsengines combineert.

NVIDIA BlueField-2 DPU – Het vlees

CPU v GPU v DPU: wat maakt een DPU anders? 

Een DPU is een nieuwe klasse programmeerbare processors die drie belangrijke elementen combineert. Een DPU is een systeem op een chip, of SoC, dat het volgende combineert:

  1. Een industriestandaard, krachtige, softwareprogrammeerbare, multi-core CPU, meestal gebaseerd op de veelgebruikte Arm-architectuur, nauw gekoppeld aan de andere SoC-componenten.
  2. Een krachtige netwerkinterface die in staat is om gegevens op lijnsnelheid, of de snelheid van de rest van het netwerk, te parseren, verwerken en efficiënt over te dragen naar GPU's en CPU's.
  3. Een uitgebreide set flexibele en programmeerbare versnellingsengines die de prestaties van applicaties voor onder andere AI en machine learning, beveiliging, telecommunicatie en opslag ontlasten en verbeteren.

De NVIDIA® BlueField®-2 DPU is de eerste datacenterinfrastructuur-op-een-chip die is geoptimaliseerd voor moderne cloud en HPC. Het leveren van een breed scala aan versnelde softwaregedefinieerde netwerk-, opslag-, beveiligings- en beheerservices met de mogelijkheid om datacenterinfrastructuur te ontlasten, versnellen en isoleren. Uitgerust met 200Gb/s Ethernet- of InfiniBand-connectiviteit, versnelt de BlueField-2 DPU het netwerkpad voor zowel het besturingsvlak als het datavlak en is gewapend met "zero trust"-beveiliging om datalekken en cyberaanvallen te voorkomen.

NVIDIA ConnectX®-6 Dx combineert de netwerkadapter met een reeks Arm®-cores en infrastructuurspecifieke offloads, en biedt speciaal gebouwde hardwareversnellingsengines met volledige softwareprogrammeerbaarheid. BlueField-2 bevindt zich aan de rand van elke server en maakt flexibele, beveiligde en krachtige cloud- en kunstmatige intelligentie (AI)-workloads mogelijk, en verlaagt de TCO terwijl de efficiëntie van het datacenter wordt verhoogd.

Het NVIDIA DOCA™-softwareframework stelt ontwikkelaars in staat om snel applicaties en services voor de BlueField-2 DPU te creëren. NVIDIA DOCA maakt gebruik van DPU-hardwareversnellers, waardoor de prestaties, efficiëntie en beveiliging van het datacenter worden verbeterd.

NVIDIA BlueField-2 DPU-functies

Netwerk- en hostinterfaces

Opbergen
Netwerkinterfaces  BlueField SNAP – NVMe™ en VirtIO-blk
 Ethernet – Dubbele poorten van 10/25/50/100Gb/s, of een enkele poort van 200Gb/s  NVMe-oF™-versnelling
 InfiniBand - Dubbele poorten van EDR / HDR100, of enkele poort van HDR  Compressie- en decompressieversnelling
PCI Express-interface  Datahashing en deduplicatie
 8 of 16 rijstroken van PCIe Gen 4.0  M.2 / U.2-connectoren voor direct aangesloten opslag
 PCIe switch bi-furcatie met 8 downstream-poorten Netwerken
ARM/DDR-subsysteem   RoCE, Zero Touch RoCE
Arm Kernen   Stateless offloads voor:
 Pijplijn tot 8 Armv8 A72-cores (64-bits).  TCP/UDP/IP
 1 MB L2-cache per 2 kernen   LSO/LRO/checksum/RSS/TSS/HDS
 6 MB L3-cache met meerdere verwijderingsbeleidsregels  VLAN-invoeging/strippen
DDR4 DIMM-ondersteuning   SR-IOV
 Enkele DDR4 DRAM-controller   VirtIO-net
 8 GB / 16 GB / 32 GB ingebouwde DDR4   Multifunctioneel per poort
 Ondersteuning voor ECC-foutbeveiliging   VMware NetQueue-ondersteuning
Hardwareversnellingen   Virtualisatie hiërarchieën
Beveiliging   1K inkomende en uitgaande QoS-niveaus
 Veilig opstarten met hardware root-of-trust Boot Options
 Veilige firmware-update  Veilig opstarten (RSA-geauthenticeerd)
 Cerberus-compatibel  Op afstand opstarten via Ethernet
 Versnelling van reguliere expressies (RegEx).  Op afstand opstarten via iSCSI
 IPsec/TLS data-in-motion encryptie  PXE en UEFI
 AES-GCM 128/256-bits sleutel beheer
 AES-XTS 256/512-bit data-at-rest encryptie  1GbE out-of-band beheerpoort
 SHA 256-bits hardwareversnelling  NC-SI, MCTP via SMBus en MCTP via PCIe
 Hardware versneller voor openbare sleutels  PLDM voor monitor en besturing DSP0248
 RSA, Diffie-Hellman, DSA, ECC,  PLDM voor firmware-update DSP026
EC-DSA, EC-DH  I2C-interface voor apparaatbesturing en configuratie
 True Random Number Generator (TRNG)  SPI-interface om te knipperen
 eMMC-geheugencontroller
 UART
 USB

Een DPU voor opslag, netwerken en machine learning

Laten we eens kijken hoe de nieuwe BlueField-2 omgaat met snelle opslagtechnologieën. BlueField biedt een complete oplossing voor opslagplatforms, zoals NVMe over Fabrics (NVMe-oF), All-Flash Array (AFA) en een opslagcontroller voor JBOF, servercaching (memcached), disaggregated rack storage en scale-out direct- aangebouwde berging. De slimheid van deze DPU maakt het een flexibele keuze.

NVIDIA heeft de indrukwekkende resultaten van hun test voor de BlueField-2 hier. De testomgeving is opgenomen in de blog.

Volledige opslagoplossing

BlueField-2 maakt gebruik van de verwerkingskracht van Arm-cores voor opslagtoepassingen zoals All-Flash Arrays met behulp van NVMe-oF, Ceph, Lustre, iSCSI/TCP-offload, Flash Translation Layer, datacompressie/-decompressie en deduplicatie.

In krachtige opslagarrays functioneert BlueField-2 als de belangrijkste CPU van het systeem, die opslagcontrollertaken en verkeersafsluiting uitvoert. Het kan ook worden geconfigureerd als een co-processor, waardoor specifieke opslagtaken van de host worden ontlast, een deel van de opslagmedia van de host wordt geïsoleerd of abstractie van softwaregedefinieerde opslaglogica mogelijk wordt gemaakt met behulp van de BlueField Arm-kernen.

NVMe over Fabrics-mogelijkheden

Door gebruik te maken van de geavanceerde mogelijkheden van NVMe-oF, levert de op BlueField RDMA gebaseerde technologie externe opslagtoegangsprestaties die gelijk zijn aan die van lokale opslag, met minimale CPU-overhead, waardoor efficiënte gedesaggregeerde opslag en hypergeconvergeerde oplossingen mogelijk zijn.

Opslagversnelling

De ingebouwde PCIe-switch van BlueField stelt klanten in staat om stand-alone opslagapparaten te bouwen en een enkele BlueField aan te sluiten meerdere opslagapparaten zonder externe schakelaar.

Handtekening Overhandiging

De BlueField embedded netwerkcontroller maakt hardware mogelijk controle van T10 Data Integrity Field/Protection Information (T10-DIF/PI), vermindering van softwareoverhead en snellere levering van gegevens aan de toepassing. De overdracht van handtekeningen wordt afgehandeld door de adapter op inkomende en uitgaande pakketten, waardoor de belasting van de software op de Initiator- en Target-machines wordt verminderd.

BlueField voor netwerken en beveiliging

Of het nu in de vorm van een smartNIC is of als een stand-alone netwerkplatform, de nieuwe Bluefield-2 zorgt voor een efficiënte inzet van netwerktoepassingen. Een combinatie van geavanceerde offloads en Arm-computing gebruiken mogelijkheden beëindigt BlueField netwerk- en beveiligingsprotocollen in lijn. 

BlueField SmartNIC 

Als netwerkadapter krijg je de flexibiliteit om geheel of gedeeltelijk implementeer de gegevens- en besturingsvlakken, waardoor een efficiënter gebruik van computerresources mogelijk wordt. De programmeerbaarheid van de adapter biedt de mogelijkheid om nieuwe gegevens en functionaliteit op het besturingsvlak te integreren.

BlueField-beveiligingsfuncties

Als het gaat om veiligheid, de integratie van encryptie-offloads voor symmetrisch en asymmetrisch crypto-operaties maakt het een uitstekende keuze voor het implementeren van beveiligingstoepassingen. Beveiliging zit in het DNA van het datacenter ingebouwd infrastructuur, het verminderen van de blootstelling aan bedreigingen, het minimaliseren van risico's en het mogelijk maken preventie, detectie en reactie op potentiële bedreigingen in realtime.

Pijnloze virtualisatie 

PCIe SR-IOV-technologie van NVIDIA, datacenterbeheerders zal profiteren van een beter servergebruik terwijl kosten, stroom en kabelcomplexiteit, waardoor meer virtuele machines en meer huurders mogelijk zijn op dezelfde hardware. Dit lost zeker alle TCO-zorgen op.

Overlay-netwerken 

Datacenteroperators gebruiken netwerkoverlaytechnologieën (VXLAN, NVGRE, GENÈVE) om schaalbaarheidsbarrières te overwinnen. Door aan te bieden geavanceerde losmotoren die de overlay-protocolheaders, deze DPU maakt de traditionele offloads mogelijk om te werken op de getunnelde protocollen en ontlast ook NAT-routering mogelijkheden.

BlueField voor machine learning-omgevingen

Natuurlijk richt NVIDIA zich op de AI/ML-markt met deze nieuwe DPU die kosteneffectieve en integratieve oplossingen biedt voor Machine Learning-apparaten. Via de PCIe Gen 3.0/4.0-interface kunnen meerdere GPU's worden aangesloten. Met zijn RDMA- en GPUDirect® RDMA-technologieën biedt BlueField-2 efficiënte gegevenslevering voor realtime analyse en gegevensinzichten.

RDMA-versnelling

De datapadhardware van de netwerkcontroller maakt gebruik van RDMA- en RoCE-technologie, wat zorgt voor lage latentie en hoge doorvoer met CPU-cycli van bijna nul.

BlueField voor multi-GPU-platforms

BlueField-2 maakt de aansluiting van meerdere GPU's mogelijk via zijn geïntegreerde PCIe-switch. BlueField PCIe 4.0-ondersteuning is toekomstbestendig voor GPU-apparaten van de volgende generatie.

PeerDirect® 

PeerDirect, een product van Mellanox, is een versnelde communicatiearchitectuur die peer-to-peer-communicatie tussen BlueField en hardware van derden, zoals GPU's (bijv. NVIDIA GPUDirect RDMA), co-processoradapters (bijv. Intel Xeon Phi) of opslagadapters. PeerDirect biedt een gestandaardiseerde architectuur waar apparaten kunnen rechtstreeks communiceren met externe apparaten in de hele structuur, waardoor onnodige systeemgeheugenkopieën en CPU worden vermeden overhead door gegevens rechtstreeks naar/van apparaten te kopiëren.

GPUDirect RDMA-technologie

De snelle toename van de prestaties van grafische hardware, gekoppeld met recente verbeteringen in GPU-programmeerbaarheid, heeft grafisch gemaakt accelerators een aantrekkelijk platform voor veeleisende rekenmachines taken in een grote verscheidenheid aan toepassingsdomeinen. Omdat GPU's bieden een hoog aantal kernen en mogelijkheden voor drijvende-kommabewerkingen, is een netwerk met hoge snelheid vereist om verbinding te maken tussen de platforms om een ​​hoge doorvoer en de laagste latentie voor GPU-naar-GPU te bieden communicatie. GPUDirect RDMA is een geïmplementeerde technologie binnen Bluefield-2 en NVIDIA GPU's die een direct pad mogelijk maken voor gegevensuitwisseling tussen GPU's en de hoge snelheid onderling verbinden.

GPUDirect RDMA biedt verbeteringen van orde van grootte voor beide communicatiebandbreedte en communicatielatentie tussen GPU apparaten van verschillende clusterknooppunten.

Conclusie

De NVIDIA-tests brachten de volgende prestatiekenmerken van de BlueField DPU aan het licht:

  • Testen met kleinere 512B I/O-formaten resulteerden in hogere IOPS maar lagere doorvoersnelheid dan lijn, terwijl I/O-formaten van 4 KB resulteerden in hogere doorvoer maar lagere IOPS-aantallen.
  • 100 procent lees- en 100 procent schrijfworkloads zorgden voor vergelijkbare IOPS en doorvoer, terwijl 50/50 gemengde lees/schrijf-workloads hogere prestaties opleverden door beide richtingen van de netwerkverbinding tegelijkertijd te gebruiken.
  • Het gebruik van SPDK resulteerde in hogere prestaties dan software voor kernelruimte, maar ging ten koste van een hoger CPU-gebruik van de server, wat verwacht gedrag is, aangezien SPDK in de gebruikersruimte draait met constante polling.
  • De nieuwere Linux 5.15-kernel presteerde beter dan de 4.18-kernel vanwege opslagverbeteringen die regelmatig door de Linux-gemeenschap werden toegevoegd.

Over het algemeen zijn de resultaten van de interne test behoorlijk indrukwekkend. De BlueField-2 bereikte 41.5 miljoen IOPS wat meer dan vier keer zoveel is als elke andere DPU die momenteel op de markt is.

De standaardnetwerkresultaten waren ook indrukwekkend. De DPU klokte meer dan vijf miljoen IOPS van 4 KB en zeven miljoen tot meer dan 20 miljoen IOPS van 512 KB voor NVMe-oF. Als u de algehele prestaties in het datacenter wilt verbeteren, zou deze DPU moeten passen.

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed