NVIDIA zet de evolutie van de Data Processing Unit (DPU) voort met de release van de NVIDIA BlueField-2. De NVIDIA BlueField-2 DPU wordt aangeprezen als de datacenterinfrastructuur-op-een-chip en geoptimaliseerd voor enterprise cloud- en HPC-workloads. BlueField-2 combineert de NVIDIA ConnectX-6 Dx-netwerkadapter met een reeks Arm-cores en infrastructuurspecifieke offloads en biedt speciaal gebouwde hardwareversnellingsmotoren met volledige softwareprogrammeerbaarheid. Brian had eerder dit jaar een discussie met NVIDIA op een van zijn reguliere podcasts. Je kunt wat krijgen NVIDIA DPU-details hier.
NVIDIA zet de evolutie van de Data Processing Unit (DPU) voort met de release van de NVIDIA BlueField-2. De NVIDIA BlueField-2 DPU wordt aangeprezen als de datacenterinfrastructuur-op-een-chip en geoptimaliseerd voor enterprise cloud- en HPC-workloads. BlueField-2 combineert de NVIDIA ConnectX-6 Dx-netwerkadapter met een reeks Arm-cores en infrastructuurspecifieke offloads en biedt speciaal gebouwde hardwareversnellingsmotoren met volledige softwareprogrammeerbaarheid. Brian had eerder dit jaar een discussie met NVIDIA op een van zijn reguliere podcasts. Je kunt wat krijgen NVIDIA DPU-details hier.
De functies zijn indrukwekkend, maar laten we eerst eens kijken naar de evolutie van de DPU. Als je niet van de geschiedenis houdt, kun je doorgaan naar de details voor de NVIDIA BlueField-2. Het begon in de jaren '90 toen Intel x86-processors ongeëvenaarde kracht leverden aan ondernemingen, gecombineerd met een besturingssysteem. Vervolgens kwam de client/server en vervolgens de komst van gedistribueerde verwerking. Softwareontwikkeling en groeiende databases versnelden snel, wat leidde tot een explosie van hardware-implementatie in het datacenter.
Begin jaren 2000 introduceerde VMware de ESX-hypervisor en virtualiseerde het de x86-CPU, waardoor meerdere instanties van het besturingssysteem op één server konden draaien. VM's waren niet noodzakelijkerwijs nieuw; IBM draaide jarenlang virtuele machines op hun mainframes voordat ze de ESX-hypervisor creëerden. Deze ontwikkeling leidde echter tot een groei van de aggregatie van datacenterinfrastructuur.
Hardware was nu programmeerbaar met ontwikkelaars die code schreven die virtuele machines definieerde en inrichtte zonder handmatige tussenkomst. Dit leidde tot de uiteindelijke push voor migratie naar cloud computing.
VMware besefte het succes van zijn ESX-platform en stapte snel over op opslag- en netwerkvirtualisatie. Om niet achter te blijven, werkte EMC samen met Cisco om hun eigen gevirtualiseerde netwerk- en opslagoplossing te bouwen. Er vond een golf van overnames plaats. VMware ontwikkelde vSANS geïntegreerd in hun vSphere-platform.
De ontwikkeling van deze geconvergeerde infrastructuur wordt Software-Defined Data Center (SDDC) genoemd. De grote spelers, Microsoft, VMware, Cisco en EMC, deden allemaal hun best om de SDDC-markt te veroveren. Alles werd programmeerbaar: I/O, beveiliging, besturingssysteem, applicaties, enz. SDDC was slechts een CPU-component, die de beschikbare middelen belastte die voor andere diensten werden gebruikt.
Al deze convergentie en programmeerbaarheid leidde tot de ontwikkeling van kunstmatige intelligentie (AI), waarbij GPU's werden ontwikkeld om te voldoen aan de verwerkingsvereisten voor deze grafisch-intensieve toepassingen. Dit leidt tot de ontwikkeling van hardware die een deel van de bewerkingen van de CPU ontlast. Netwerkfuncties, doorgaans CPU-intensief, werden ontlast en NVIDIA greep deze nieuwe kans aan en nam Mellanox over om slimme netwerkadapters te ontwikkelen.
GPU's werden slimmer en slimme NIC's speelden een cruciale rol bij het verwijderen van de netwerk- en grafische verwerking uit de algehele SDDC-aggregatie. Uiteindelijk is de ontwikkeling van DPU het resultaat van offloaded intelligentie van de CPU.
De nieuwe NVIDIA BlueField-2 DPU heeft een systeem op een chip gecreëerd dat multi-core CPU, krachtige netwerkinterface en programmeerbare versnellingsengines combineert.
NVIDIA BlueField-2 DPU – Het vlees
CPU v GPU v DPU: wat maakt een DPU anders?
Een DPU is een nieuwe klasse programmeerbare processors die drie belangrijke elementen combineert. Een DPU is een systeem op een chip, of SoC, dat het volgende combineert:
- Een industriestandaard, krachtige, softwareprogrammeerbare, multi-core CPU, meestal gebaseerd op de veelgebruikte Arm-architectuur, nauw gekoppeld aan de andere SoC-componenten.
- Een krachtige netwerkinterface die in staat is om gegevens op lijnsnelheid, of de snelheid van de rest van het netwerk, te parseren, verwerken en efficiënt over te dragen naar GPU's en CPU's.
- Een uitgebreide set flexibele en programmeerbare versnellingsengines die de prestaties van applicaties voor onder andere AI en machine learning, beveiliging, telecommunicatie en opslag ontlasten en verbeteren.
De NVIDIA® BlueField®-2 DPU is de eerste datacenterinfrastructuur-op-een-chip die is geoptimaliseerd voor moderne cloud en HPC. Het leveren van een breed scala aan versnelde softwaregedefinieerde netwerk-, opslag-, beveiligings- en beheerservices met de mogelijkheid om datacenterinfrastructuur te ontlasten, versnellen en isoleren. Uitgerust met 200Gb/s Ethernet- of InfiniBand-connectiviteit, versnelt de BlueField-2 DPU het netwerkpad voor zowel het besturingsvlak als het datavlak en is gewapend met "zero trust"-beveiliging om datalekken en cyberaanvallen te voorkomen.
NVIDIA ConnectX®-6 Dx combineert de netwerkadapter met een reeks Arm®-cores en infrastructuurspecifieke offloads, en biedt speciaal gebouwde hardwareversnellingsengines met volledige softwareprogrammeerbaarheid. BlueField-2 bevindt zich aan de rand van elke server en maakt flexibele, beveiligde en krachtige cloud- en kunstmatige intelligentie (AI)-workloads mogelijk, en verlaagt de TCO terwijl de efficiëntie van het datacenter wordt verhoogd.
Het NVIDIA DOCA™-softwareframework stelt ontwikkelaars in staat om snel applicaties en services voor de BlueField-2 DPU te creëren. NVIDIA DOCA maakt gebruik van DPU-hardwareversnellers, waardoor de prestaties, efficiëntie en beveiliging van het datacenter worden verbeterd.
NVIDIA BlueField-2 DPU-functies
Netwerk- en hostinterfaces |
Opbergen |
Netwerkinterfaces | BlueField SNAP – NVMe™ en VirtIO-blk |
Ethernet – Dubbele poorten van 10/25/50/100Gb/s, of een enkele poort van 200Gb/s | NVMe-oF™-versnelling |
InfiniBand - Dubbele poorten van EDR / HDR100, of enkele poort van HDR | Compressie- en decompressieversnelling |
PCI Express-interface | Datahashing en deduplicatie |
8 of 16 rijstroken van PCIe Gen 4.0 | M.2 / U.2-connectoren voor direct aangesloten opslag |
PCIe switch bi-furcatie met 8 downstream-poorten | Netwerken |
ARM/DDR-subsysteem | RoCE, Zero Touch RoCE |
Arm Kernen | Stateless offloads voor: |
Pijplijn tot 8 Armv8 A72-cores (64-bits). | TCP/UDP/IP |
1 MB L2-cache per 2 kernen | LSO/LRO/checksum/RSS/TSS/HDS |
6 MB L3-cache met meerdere verwijderingsbeleidsregels | VLAN-invoeging/strippen |
DDR4 DIMM-ondersteuning | SR-IOV |
Enkele DDR4 DRAM-controller | VirtIO-net |
8 GB / 16 GB / 32 GB ingebouwde DDR4 | Multifunctioneel per poort |
Ondersteuning voor ECC-foutbeveiliging | VMware NetQueue-ondersteuning |
Hardwareversnellingen | Virtualisatie hiërarchieën |
Beveiliging | 1K inkomende en uitgaande QoS-niveaus |
Veilig opstarten met hardware root-of-trust | Boot Options |
Veilige firmware-update | Veilig opstarten (RSA-geauthenticeerd) |
Cerberus-compatibel | Op afstand opstarten via Ethernet |
Versnelling van reguliere expressies (RegEx). | Op afstand opstarten via iSCSI |
IPsec/TLS data-in-motion encryptie | PXE en UEFI |
AES-GCM 128/256-bits sleutel | beheer |
AES-XTS 256/512-bit data-at-rest encryptie | 1GbE out-of-band beheerpoort |
SHA 256-bits hardwareversnelling | NC-SI, MCTP via SMBus en MCTP via PCIe |
Hardware versneller voor openbare sleutels | PLDM voor monitor en besturing DSP0248 |
RSA, Diffie-Hellman, DSA, ECC, | PLDM voor firmware-update DSP026 |
EC-DSA, EC-DH | I2C-interface voor apparaatbesturing en configuratie |
True Random Number Generator (TRNG) | SPI-interface om te knipperen |
eMMC-geheugencontroller | |
UART | |
USB |
Een DPU voor opslag, netwerken en machine learning
Laten we eens kijken hoe de nieuwe BlueField-2 omgaat met snelle opslagtechnologieën. BlueField biedt een complete oplossing voor opslagplatforms, zoals NVMe over Fabrics (NVMe-oF), All-Flash Array (AFA) en een opslagcontroller voor JBOF, servercaching (memcached), disaggregated rack storage en scale-out direct- aangebouwde berging. De slimheid van deze DPU maakt het een flexibele keuze.
NVIDIA heeft de indrukwekkende resultaten van hun test voor de BlueField-2 hier. De testomgeving is opgenomen in de blog.
Volledige opslagoplossing
BlueField-2 maakt gebruik van de verwerkingskracht van Arm-cores voor opslagtoepassingen zoals All-Flash Arrays met behulp van NVMe-oF, Ceph, Lustre, iSCSI/TCP-offload, Flash Translation Layer, datacompressie/-decompressie en deduplicatie.
In krachtige opslagarrays functioneert BlueField-2 als de belangrijkste CPU van het systeem, die opslagcontrollertaken en verkeersafsluiting uitvoert. Het kan ook worden geconfigureerd als een co-processor, waardoor specifieke opslagtaken van de host worden ontlast, een deel van de opslagmedia van de host wordt geïsoleerd of abstractie van softwaregedefinieerde opslaglogica mogelijk wordt gemaakt met behulp van de BlueField Arm-kernen.
NVMe over Fabrics-mogelijkheden
Door gebruik te maken van de geavanceerde mogelijkheden van NVMe-oF, levert de op BlueField RDMA gebaseerde technologie externe opslagtoegangsprestaties die gelijk zijn aan die van lokale opslag, met minimale CPU-overhead, waardoor efficiënte gedesaggregeerde opslag en hypergeconvergeerde oplossingen mogelijk zijn.
Opslagversnelling
De ingebouwde PCIe-switch van BlueField stelt klanten in staat om stand-alone opslagapparaten te bouwen en een enkele BlueField aan te sluiten meerdere opslagapparaten zonder externe schakelaar.
Handtekening Overhandiging
De BlueField embedded netwerkcontroller maakt hardware mogelijk controle van T10 Data Integrity Field/Protection Information (T10-DIF/PI), vermindering van softwareoverhead en snellere levering van gegevens aan de toepassing. De overdracht van handtekeningen wordt afgehandeld door de adapter op inkomende en uitgaande pakketten, waardoor de belasting van de software op de Initiator- en Target-machines wordt verminderd.
BlueField voor netwerken en beveiliging
Of het nu in de vorm van een smartNIC is of als een stand-alone netwerkplatform, de nieuwe Bluefield-2 zorgt voor een efficiënte inzet van netwerktoepassingen. Een combinatie van geavanceerde offloads en Arm-computing gebruiken mogelijkheden beëindigt BlueField netwerk- en beveiligingsprotocollen in lijn.
BlueField SmartNIC
Als netwerkadapter krijg je de flexibiliteit om geheel of gedeeltelijk implementeer de gegevens- en besturingsvlakken, waardoor een efficiënter gebruik van computerresources mogelijk wordt. De programmeerbaarheid van de adapter biedt de mogelijkheid om nieuwe gegevens en functionaliteit op het besturingsvlak te integreren.
BlueField-beveiligingsfuncties
Als het gaat om veiligheid, de integratie van encryptie-offloads voor symmetrisch en asymmetrisch crypto-operaties maakt het een uitstekende keuze voor het implementeren van beveiligingstoepassingen. Beveiliging zit in het DNA van het datacenter ingebouwd infrastructuur, het verminderen van de blootstelling aan bedreigingen, het minimaliseren van risico's en het mogelijk maken preventie, detectie en reactie op potentiële bedreigingen in realtime.
Pijnloze virtualisatie
PCIe SR-IOV-technologie van NVIDIA, datacenterbeheerders zal profiteren van een beter servergebruik terwijl kosten, stroom en kabelcomplexiteit, waardoor meer virtuele machines en meer huurders mogelijk zijn op dezelfde hardware. Dit lost zeker alle TCO-zorgen op.
Overlay-netwerken
Datacenteroperators gebruiken netwerkoverlaytechnologieën (VXLAN, NVGRE, GENÈVE) om schaalbaarheidsbarrières te overwinnen. Door aan te bieden geavanceerde losmotoren die de overlay-protocolheaders, deze DPU maakt de traditionele offloads mogelijk om te werken op de getunnelde protocollen en ontlast ook NAT-routering mogelijkheden.
BlueField voor machine learning-omgevingen
Natuurlijk richt NVIDIA zich op de AI/ML-markt met deze nieuwe DPU die kosteneffectieve en integratieve oplossingen biedt voor Machine Learning-apparaten. Via de PCIe Gen 3.0/4.0-interface kunnen meerdere GPU's worden aangesloten. Met zijn RDMA- en GPUDirect® RDMA-technologieën biedt BlueField-2 efficiënte gegevenslevering voor realtime analyse en gegevensinzichten.
RDMA-versnelling
De datapadhardware van de netwerkcontroller maakt gebruik van RDMA- en RoCE-technologie, wat zorgt voor lage latentie en hoge doorvoer met CPU-cycli van bijna nul.
BlueField voor multi-GPU-platforms
BlueField-2 maakt de aansluiting van meerdere GPU's mogelijk via zijn geïntegreerde PCIe-switch. BlueField PCIe 4.0-ondersteuning is toekomstbestendig voor GPU-apparaten van de volgende generatie.
PeerDirect®
PeerDirect, een product van Mellanox, is een versnelde communicatiearchitectuur die peer-to-peer-communicatie tussen BlueField en hardware van derden, zoals GPU's (bijv. NVIDIA GPUDirect RDMA), co-processoradapters (bijv. Intel Xeon Phi) of opslagadapters. PeerDirect biedt een gestandaardiseerde architectuur waar apparaten kunnen rechtstreeks communiceren met externe apparaten in de hele structuur, waardoor onnodige systeemgeheugenkopieën en CPU worden vermeden overhead door gegevens rechtstreeks naar/van apparaten te kopiëren.
GPUDirect RDMA-technologie
De snelle toename van de prestaties van grafische hardware, gekoppeld met recente verbeteringen in GPU-programmeerbaarheid, heeft grafisch gemaakt accelerators een aantrekkelijk platform voor veeleisende rekenmachines taken in een grote verscheidenheid aan toepassingsdomeinen. Omdat GPU's bieden een hoog aantal kernen en mogelijkheden voor drijvende-kommabewerkingen, is een netwerk met hoge snelheid vereist om verbinding te maken tussen de platforms om een hoge doorvoer en de laagste latentie voor GPU-naar-GPU te bieden communicatie. GPUDirect RDMA is een geïmplementeerde technologie binnen Bluefield-2 en NVIDIA GPU's die een direct pad mogelijk maken voor gegevensuitwisseling tussen GPU's en de hoge snelheid onderling verbinden.
GPUDirect RDMA biedt verbeteringen van orde van grootte voor beide communicatiebandbreedte en communicatielatentie tussen GPU apparaten van verschillende clusterknooppunten.
Conclusie
De NVIDIA-tests brachten de volgende prestatiekenmerken van de BlueField DPU aan het licht:
- Testen met kleinere 512B I/O-formaten resulteerden in hogere IOPS maar lagere doorvoersnelheid dan lijn, terwijl I/O-formaten van 4 KB resulteerden in hogere doorvoer maar lagere IOPS-aantallen.
- 100 procent lees- en 100 procent schrijfworkloads zorgden voor vergelijkbare IOPS en doorvoer, terwijl 50/50 gemengde lees/schrijf-workloads hogere prestaties opleverden door beide richtingen van de netwerkverbinding tegelijkertijd te gebruiken.
- Het gebruik van SPDK resulteerde in hogere prestaties dan software voor kernelruimte, maar ging ten koste van een hoger CPU-gebruik van de server, wat verwacht gedrag is, aangezien SPDK in de gebruikersruimte draait met constante polling.
- De nieuwere Linux 5.15-kernel presteerde beter dan de 4.18-kernel vanwege opslagverbeteringen die regelmatig door de Linux-gemeenschap werden toegevoegd.
Over het algemeen zijn de resultaten van de interne test behoorlijk indrukwekkend. De BlueField-2 bereikte 41.5 miljoen IOPS wat meer dan vier keer zoveel is als elke andere DPU die momenteel op de markt is.
De standaardnetwerkresultaten waren ook indrukwekkend. De DPU klokte meer dan vijf miljoen IOPS van 4 KB en zeven miljoen tot meer dan 20 miljoen IOPS van 512 KB voor NVMe-oF. Als u de algehele prestaties in het datacenter wilt verbeteren, zou deze DPU moeten passen.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed