Hem Företag NVIDIA Bluefield-2 DPU levererar rekordprestanda

NVIDIA Bluefield-2 DPU levererar rekordprestanda

by Harold Fritts

NVIDIA fortsätter utvecklingen av Data Processing Unit (DPU) med lanseringen av NVIDIA BlueField-2. NVIDIA BlueField-2 DPU är utsedda som datacenterinfrastrukturen-på-ett-chip och optimerad för företagsmoln och HPC-arbetsbelastningar. BlueField-2 kombinerar NVIDIA ConnectX-6 Dx-nätverksadapter med en rad armkärnor och infrastrukturspecifika avlastningar och erbjuder specialbyggda hårdvaruaccelerationsmotorer med full mjukvaruprogrammerbarhet. Brian hade tidigare i år en diskussion med NVIDIA på en av sina vanliga podcasts. Du kan få några NVIDIA DPU-detaljer här.

NVIDIA fortsätter utvecklingen av Data Processing Unit (DPU) med lanseringen av NVIDIA BlueField-2. NVIDIA BlueField-2 DPU är utsedda som datacenterinfrastrukturen-på-ett-chip och optimerad för företagsmoln och HPC-arbetsbelastningar. BlueField-2 kombinerar NVIDIA ConnectX-6 Dx-nätverksadapter med en rad armkärnor och infrastrukturspecifika avlastningar och erbjuder specialbyggda hårdvaruaccelerationsmotorer med full mjukvaruprogrammerbarhet. Brian hade tidigare i år en diskussion med NVIDIA på en av sina vanliga podcasts. Du kan få några NVIDIA DPU-detaljer här.

NVIDIA Bluefield-2

Funktionerna är imponerande, men låt oss först ta en titt på utvecklingen av DPU. Om du inte är intresserad av historiken kan du hoppa ner till detaljerna för NVIDIA BlueField-2. Det började på 90-talet när Intel x86-processorer levererade oöverträffad kraft till företag, kombinerat med ett OS. Därefter kom klienten/servern, sedan tillkomsten av distribuerad bearbetning. Mjukvaruutveckling och växande databaser accelererade snabbt, vilket orsakade en explosion av hårdvaruinstallation i datacentret.

I början av 2000-talet introducerade VMware ESX-hypervisorn och virtualiserade x86-processorn, vilket gjorde att flera operativsystemsinstanser kunde köras på en enda server. virtuella datorer var inte nödvändigtvis nya; IBM körde virtuella maskiner på sina stordatorer i många år innan de skapade ESX-hypervisorn. Denna utveckling ledde dock till att datacenterinfrastrukturen ökade.

Hårdvara var nu programmerbar med utvecklare som skrev kod som definierade och tillhandahåller virtuella maskiner utan manuell inblandning. Detta ledde till den slutliga drivkraften för migrering till cloud computing.

VMware insåg framgången med sin ESX-plattform och gick snabbt över till lagring och nätverksvirtualisering. För att inte överträffa, slog EMC ihop med Cisco för att bygga sin egen virtualiserade nätverks- och lagringslösning. En uppsjö av förvärv ägde rum. VMware utvecklade vSANS integrerat i deras vSphere-plattform.

Utvecklingen av denna konvergerade infrastruktur kallas Software-Defined Data Center (SDDC). De stora spelarna, Microsoft, VMware, Cisco och EMC, kämpade alla för att vinna SDDC-marknaden. Allt blev programmerbart: I/O, säkerhet, OS, applikationer, etc. SDDC var bara en CPU-komponent som belastade de tillgängliga resurserna som användes för andra tjänster.

All denna konvergens och programmerbarhet leder till utveckling av artificiell intelligens (AI) där GPU:er utvecklades för att möta bearbetningskraven för dessa grafikintensiva applikationer. Detta leder till utvecklingen av hårdvara som avlastar en del av operationerna från CPU:n. Nätverksfunktioner, vanligtvis CPU-intensiva, laddades ur och NVIDIA hoppade på denna nya möjlighet, förvärvade Mellanox för att utveckla smarta nätverkskort.

GPU:er blev smartare och smarta NIC:er var avgörande för att ta bort nätverket och grafikbearbetningen från den övergripande SDDC-aggregationen. I slutändan är utvecklingen av DPU resultatet av avlastad intelligens från processorn.

Den nya NVIDIA BlueField-2 DPU har skapat ett system på ett chip som kombinerar multi-core CPU, högpresterande nätverksgränssnitt och programmerbara accelerationsmotorer.

NVIDIA BlueField-2 DPU – Köttet

CPU v GPU v DPU: Vad gör en DPU annorlunda? 

En DPU är en ny klass av programmerbara processorer som kombinerar tre nyckelelement. En DPU är ett system på ett chip, eller SoC, som kombinerar:

  1. En branschstandard, högpresterande, programvaruprogrammerbar flerkärnig CPU, vanligtvis baserad på den mycket använda Arm-arkitekturen, tätt kopplad till de andra SoC-komponenterna.
  2. Ett högpresterande nätverksgränssnitt som kan analysera, bearbeta och effektivt överföra data med linjehastighet, eller hastigheten för resten av nätverket, till GPU:er och processorer.
  3. En rik uppsättning flexibla och programmerbara accelerationsmotorer som laddar ner och förbättrar applikationsprestanda för bland annat AI och maskininlärning, säkerhet, telekommunikation och lagring.

NVIDIA® BlueField®-2 DPU är den första datacenterinfrastrukturen-på-ett-chip som är optimerad för moderna moln och HPC. Levererar en bred uppsättning av accelererade mjukvarudefinierade nätverks-, lagrings-, säkerhets- och hanteringstjänster med möjlighet att ladda ner, accelerera och isolera datacenterinfrastruktur. Utrustad med 200 Gb/s Ethernet- eller InfiniBand-anslutning, accelererar BlueField-2 DPU nätverksvägen för både kontrollplanet och dataplanet och är beväpnad med "zero trust"-säkerhet för att förhindra dataintrång och cyberattacker.

NVIDIA ConnectX®-6 Dx kombinerar nätverksadaptern med en rad Arm®-kärnor och infrastrukturspecifika avlastningar, och erbjuder specialbyggda hårdvaruaccelerationsmotorer med full mjukvaruprogrammerbarhet. BlueField-2 sitter i utkanten av varje server och ger smidiga, säkrade och högpresterande moln- och artificiell intelligens (AI) arbetsbelastningar, och minskar TCO samtidigt som effektiviteten i datacenter ökar.

NVIDIA DOCA™-programvaran gör det möjligt för utvecklare att snabbt skapa applikationer och tjänster för BlueField-2 DPU. NVIDIA DOCA utnyttjar DPU-hårdvaruacceleratorer, vilket ökar datacentrets prestanda, effektivitet och säkerhet.

NVIDIA BlueField-2 DPU-funktioner

Nätverk och värdgränssnitt

lagring
Nätverksgränssnitt  BlueField SNAP – NVMe™ och VirtIO-blk
 Ethernet – Dubbla portar på 10/25/50/100 Gb/s, eller en enda port på 200 Gb/s  NVMe-oF™ acceleration
 InfiniBand – Dubbla portar av EDR / HDR100, eller enkel port av HDR  Kompressions- och dekompressionsacceleration
PCI Express-gränssnitt  Datahashning och deduplicering
 8 eller 16 banor av PCIe Gen 4.0  M.2 / U.2-kontakter för direktansluten förvaring
 PCIe-switch bi-furkation med 8 nedströmsportar nätverk
ARM/DDR-delsystem   RoCE, Zero Touch RoCE
Armkärnor   Statslösa avlastningar för:
 Upp till 8 Armv8 A72-kärnor (64-bitars) pipeline  TCP/UDP/IP
 1MB L2-cache per 2 kärnor   LSO/LRO/checksum/RSS/TSS/HDS
 6MB L3-cache med flera avhysningspolicyer  VLAN-insättning/stripping
Stöd för DDR4 DIMM   SR-IOV
 Enkel DDR4 DRAM-kontroller   VirtIO-nät
 8 GB / 16 GB / 32 GB inbyggd DDR4   Multifunktion per port
 ECC-felskyddsstöd   VMware NetQueue-stöd
Hårdvaruaccelerationer   Virtualiseringshierarkier
Säkerhet   1K in- och utgående QoS-nivåer
 Säker uppstart med hårdvara root-of-trust Startalternativ
 Säker uppdatering av firmware  Säker start (RSA-autentiserad)
 Cerberus-kompatibel  Fjärrstart via Ethernet
 Reguljärt uttryck (RegEx) acceleration  Fjärrstart över iSCSI
 IPsec/TLS-data-i-rörelse-kryptering  PXE och UEFI
 AES-GCM 128/256-bitars nyckel Verksamhetsledningen
 AES-XTS 256/512-bitars data-at-rest-kryptering  1 GbE out-of-band hanteringsport
 SHA 256-bitars hårdvaruacceleration  NC-SI, MCTP över SMBus och MCTP över PCIe
 Hårdvaruaccelerator för publik nyckel  PLDM för övervakning och kontroll DSP0248
 RSA, Diffie-Hellman, DSA, ECC,  PLDM för Firmware Update DSP026
EC-DSA, EC-DH  I2C-gränssnitt för enhetskontroll och konfiguration
 True Random Number Generator (TRNG)  SPI-gränssnittet blinkar
 eMMC minneskontroller
 UART
 USB

En DPU för lagring, nätverk och maskininlärning

Låt oss ta en titt på hur nya BlueField-2 hanterar snabba lagringsteknologier. BlueField erbjuder en komplett lösning för lagringsplattformar, såsom NVMe over Fabrics (NVMe-oF), All-Flash Array (AFA) och en lagringskontroller för JBOF, servercache (memcachad), disaggregerad racklagring och utskalning direkt- bifogat förråd. Det smarta i denna DPU gör den till ett flexibelt val.

NVIDIA har publicerat de imponerande resultaten av deras test för BlueField-2 här. Testmiljön finns med i bloggen.

Komplett lagringslösning

BlueField-2 använder processorkraften hos armkärnor för lagringsapplikationer som All-Flash Arrays som använder NVMe-oF, Ceph, Lustre, iSCSI/TCP-avlastning, Flash Translation Layer, datakomprimering/dekompression och deduplicering.

I högpresterande lagringsarrayer fungerar BlueField-2 som systemets huvudprocessor, som hanterar lagringskontrolluppgifter och trafikavslutning. Den kan också konfigureras som en co-processor, avlastar specifika lagringsuppgifter från värden, isolerar en del av lagringsmediet från värden, eller möjliggör abstraktion av mjukvarudefinierad lagringslogik med hjälp av BlueField Arm-kärnorna.

NVMe över tyger

Genom att använda de avancerade funktionerna hos NVMe-oF, levererar BlueField RDMA-baserad teknologi fjärrlagringsåtkomstprestanda lika med lokal lagring, med minimal CPU-overhead, vilket möjliggör effektiv disaggregerad lagring och hyperkonvergerade lösningar.

Lagringsacceleration

BlueField inbyggda PCIe-switch gör det möjligt för kunder att bygga fristående lagringsenheter och ansluta en enda BlueField till flera lagringsenheter utan en extern switch.

Signaturöverlämning

BlueFields inbäddade nätverkskontroller möjliggör hårdvara kontroll av T10-dataintegritetsfält-/skyddsinformation (T10-DIF/PI), vilket minskar mjukvarukostnader och accelererar leveransen av data till applikationen. Signaturöverlämning hanteras av adaptern på ingångs- och utgående paket, vilket minskar belastningen på programvaran på Initiator- och Target-maskinerna.

BlueField för nätverk och säkerhet

Oavsett om det är i form av ett smartNIC eller som en fristående nätverksplattform, ger den nya Bluefield-2 en effektiv distribution av nätverksapplikationer. Använder en kombination av avancerade avlastningar och armberäkning BlueField avslutar nätverks- och säkerhetsprotokoll i kö. 

BlueField SmartNIC 

Som nätverksadapter får du flexibiliteten att helt eller delvis implementera data- och kontrollplanen och låsa upp mer effektiv användning av beräkningsresurser. Adapterns programmerbarhet ger möjlighet att integrera nya data och styrplansfunktioner.

BlueField säkerhetsfunktioner

När det kommer till säkerhet integration av krypteringsavlastningar för symmetriska och asymmetriska kryptooperationer gör det till ett utmärkt val för att implementera säkerhetsapplikationer. Säkerhet är inbyggt i datacentrets DNA infrastruktur, minska hotexponering, minimera risker och möjliggöra förebyggande, upptäckt och svar på potentiella hot i realtid.

Smärtfri virtualisering 

PCIe SR-IOV-teknik från NVIDIA, datacenteradministratörer kommer att dra nytta av bättre serveranvändning samtidigt som kostnader, kraft och kabelkomplexitet, vilket möjliggör fler virtuella maskiner och fler hyresgäster på samma hårdvara. Detta löser säkert alla TCO-problem.

Överlagringsnätverk 

Datacenteroperatörer använder nätverksöverlagringstekniker (VXLAN, NVGRE, GENEVE) för att övervinna skalbarhetsbarriärer. Genom att tillhandahålla avancerade avlastningsmotorer som kapslar in/avkapslar överläggsprotokollhuvuden tillåter denna DPU de traditionella avlastningarna att arbeta på de tunnlade protokollen och avlastar även NAT-routing kapacitet.

BlueField för maskininlärningsmiljöer

Naturligtvis har NVIDIA tagit sig an AI/ML-marknaden med denna nya DPU som tillhandahåller kostnadseffektiva och integrerande lösningar för maskininlärningsapparater. Flera grafikprocessorer kan anslutas via PCIe Gen 3.0/4.0-gränssnittet. Med sina RDMA- och GPUDirect® RDMA-teknologier erbjuder BlueField-2 effektiv dataleverans för realtidsanalys och datainsikter.

RDMA-acceleration

Nätverksstyrenhetens datavägshårdvara använder RDMA- och RoCE-teknik, vilket ger låg latens och hög genomströmning med nästan noll CPU-cykler.

BlueField för Multi-GPU-plattformar

BlueField-2 möjliggör anslutning av flera GPU:er genom sin integrerad PCIe-switch. BlueField PCIe 4.0-stöd är framtidssäkert för nästa generations GPU-enheter.

PeerDirect® 

PeerDirect, en Mellanox-produkt, är en accelererad kommunikationsarkitektur som stöder peer-to-peer-kommunikation mellan BlueField och hårdvara från tredje part som GPU:er (t.ex. NVIDIA GPUDirect RDMA), medprocessoradaptrar (t.ex. Intel Xeon Phi) eller lagringsadaptrar. PeerDirect tillhandahåller en standardiserad arkitektur där enheter kan kommunicera direkt till fjärrenheter över hela tyget, vilket undviker onödiga systemminneskopior och CPU overhead genom att kopiera data direkt till/från enheter.

GPUDirect RDMA-teknik

Den snabba ökningen av prestanda för grafikhårdvara, kopplat med de senaste förbättringarna i GPU-programmerbarheten, har gjort grafik acceleratorer en övertygande plattform för beräkningskrävande uppgifter inom en mängd olika applikationsdomäner. Eftersom GPU tillhandahåller högt antal kärnor och flyttalsfunktioner, höghastighetsnätverk krävs för att ansluta mellan plattformarna för att ge hög genomströmning och lägsta latens för GPU-till-GPU kommunikation. GPUDirect RDMA är en implementerad teknologi inom Bluefield-2 och NVIDIA GPU:er som möjliggör en direkt väg för datautbyte mellan grafikprocessorer och höghastighetsenheter sammankoppla.

GPUDirect RDMA ger förbättringar i storleksordning för båda kommunikationsbandbredd och kommunikationslatens mellan GPU enheter av olika klusternoder.

Slutsats

NVIDIA-testningen avslöjade följande prestandaegenskaper hos BlueField DPU:

  • Testning med mindre 512B I/O-storlekar resulterade i högre IOPS men lägre hastighet än linjen, medan 4KB I/O-storlekar resulterade i högre genomströmning men lägre IOPS-tal.
  • 100 procent läs och 100 procent skriv arbetsbelastningar gav liknande IOPS och genomströmning, medan 50/50 blandade läs/skriv arbetsbelastningar gav en högre prestanda genom att använda båda riktningarna av nätverksanslutningen samtidigt.
  • Användning av SPDK resulterade i högre prestanda än kernel-space-programvara, men till bekostnad av högre server-CPU-användning, vilket är förväntat beteende, eftersom SPDK körs i användarutrymmet med konstant polling.
  • Den nyare Linux 5.15-kärnan presterade bättre än 4.18-kärnan på grund av lagringsförbättringar som regelbundet läggs till av Linux-gemenskapen.

Sammantaget är resultaten från det interna testet ganska imponerande. De BlueField-2 nådde 41.5 miljoner IOPS vilket är mer än fyra gånger så mycket som någon annan DPU på marknaden idag.

Standardnätverksresultat var också imponerande. DPU:n klockade mer än fem miljoner 4KB IOPS och sju miljoner till över 20 miljoner 512KB IOPS för NVMe-oF. Om du vill förbättra den övergripande prestandan i datacentret borde denna DPU passa.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | Rssflöde