NVIDIA fortsätter utvecklingen av Data Processing Unit (DPU) med lanseringen av NVIDIA BlueField-2. NVIDIA BlueField-2 DPU är utsedda som datacenterinfrastrukturen-på-ett-chip och optimerad för företagsmoln och HPC-arbetsbelastningar. BlueField-2 kombinerar NVIDIA ConnectX-6 Dx-nätverksadapter med en rad armkärnor och infrastrukturspecifika avlastningar och erbjuder specialbyggda hårdvaruaccelerationsmotorer med full mjukvaruprogrammerbarhet. Brian hade tidigare i år en diskussion med NVIDIA på en av sina vanliga podcasts. Du kan få några NVIDIA DPU-detaljer här.
NVIDIA fortsätter utvecklingen av Data Processing Unit (DPU) med lanseringen av NVIDIA BlueField-2. NVIDIA BlueField-2 DPU är utsedda som datacenterinfrastrukturen-på-ett-chip och optimerad för företagsmoln och HPC-arbetsbelastningar. BlueField-2 kombinerar NVIDIA ConnectX-6 Dx-nätverksadapter med en rad armkärnor och infrastrukturspecifika avlastningar och erbjuder specialbyggda hårdvaruaccelerationsmotorer med full mjukvaruprogrammerbarhet. Brian hade tidigare i år en diskussion med NVIDIA på en av sina vanliga podcasts. Du kan få några NVIDIA DPU-detaljer här.
Funktionerna är imponerande, men låt oss först ta en titt på utvecklingen av DPU. Om du inte är intresserad av historiken kan du hoppa ner till detaljerna för NVIDIA BlueField-2. Det började på 90-talet när Intel x86-processorer levererade oöverträffad kraft till företag, kombinerat med ett OS. Därefter kom klienten/servern, sedan tillkomsten av distribuerad bearbetning. Mjukvaruutveckling och växande databaser accelererade snabbt, vilket orsakade en explosion av hårdvaruinstallation i datacentret.
I början av 2000-talet introducerade VMware ESX-hypervisorn och virtualiserade x86-processorn, vilket gjorde att flera operativsystemsinstanser kunde köras på en enda server. virtuella datorer var inte nödvändigtvis nya; IBM körde virtuella maskiner på sina stordatorer i många år innan de skapade ESX-hypervisorn. Denna utveckling ledde dock till att datacenterinfrastrukturen ökade.
Hårdvara var nu programmerbar med utvecklare som skrev kod som definierade och tillhandahåller virtuella maskiner utan manuell inblandning. Detta ledde till den slutliga drivkraften för migrering till cloud computing.
VMware insåg framgången med sin ESX-plattform och gick snabbt över till lagring och nätverksvirtualisering. För att inte överträffa, slog EMC ihop med Cisco för att bygga sin egen virtualiserade nätverks- och lagringslösning. En uppsjö av förvärv ägde rum. VMware utvecklade vSANS integrerat i deras vSphere-plattform.
Utvecklingen av denna konvergerade infrastruktur kallas Software-Defined Data Center (SDDC). De stora spelarna, Microsoft, VMware, Cisco och EMC, kämpade alla för att vinna SDDC-marknaden. Allt blev programmerbart: I/O, säkerhet, OS, applikationer, etc. SDDC var bara en CPU-komponent som belastade de tillgängliga resurserna som användes för andra tjänster.
All denna konvergens och programmerbarhet leder till utveckling av artificiell intelligens (AI) där GPU:er utvecklades för att möta bearbetningskraven för dessa grafikintensiva applikationer. Detta leder till utvecklingen av hårdvara som avlastar en del av operationerna från CPU:n. Nätverksfunktioner, vanligtvis CPU-intensiva, laddades ur och NVIDIA hoppade på denna nya möjlighet, förvärvade Mellanox för att utveckla smarta nätverkskort.
GPU:er blev smartare och smarta NIC:er var avgörande för att ta bort nätverket och grafikbearbetningen från den övergripande SDDC-aggregationen. I slutändan är utvecklingen av DPU resultatet av avlastad intelligens från processorn.
Den nya NVIDIA BlueField-2 DPU har skapat ett system på ett chip som kombinerar multi-core CPU, högpresterande nätverksgränssnitt och programmerbara accelerationsmotorer.
NVIDIA BlueField-2 DPU – Köttet
CPU v GPU v DPU: Vad gör en DPU annorlunda?
En DPU är en ny klass av programmerbara processorer som kombinerar tre nyckelelement. En DPU är ett system på ett chip, eller SoC, som kombinerar:
- En branschstandard, högpresterande, programvaruprogrammerbar flerkärnig CPU, vanligtvis baserad på den mycket använda Arm-arkitekturen, tätt kopplad till de andra SoC-komponenterna.
- Ett högpresterande nätverksgränssnitt som kan analysera, bearbeta och effektivt överföra data med linjehastighet, eller hastigheten för resten av nätverket, till GPU:er och processorer.
- En rik uppsättning flexibla och programmerbara accelerationsmotorer som laddar ner och förbättrar applikationsprestanda för bland annat AI och maskininlärning, säkerhet, telekommunikation och lagring.
NVIDIA® BlueField®-2 DPU är den första datacenterinfrastrukturen-på-ett-chip som är optimerad för moderna moln och HPC. Levererar en bred uppsättning av accelererade mjukvarudefinierade nätverks-, lagrings-, säkerhets- och hanteringstjänster med möjlighet att ladda ner, accelerera och isolera datacenterinfrastruktur. Utrustad med 200 Gb/s Ethernet- eller InfiniBand-anslutning, accelererar BlueField-2 DPU nätverksvägen för både kontrollplanet och dataplanet och är beväpnad med "zero trust"-säkerhet för att förhindra dataintrång och cyberattacker.
NVIDIA ConnectX®-6 Dx kombinerar nätverksadaptern med en rad Arm®-kärnor och infrastrukturspecifika avlastningar, och erbjuder specialbyggda hårdvaruaccelerationsmotorer med full mjukvaruprogrammerbarhet. BlueField-2 sitter i utkanten av varje server och ger smidiga, säkrade och högpresterande moln- och artificiell intelligens (AI) arbetsbelastningar, och minskar TCO samtidigt som effektiviteten i datacenter ökar.
NVIDIA DOCA™-programvaran gör det möjligt för utvecklare att snabbt skapa applikationer och tjänster för BlueField-2 DPU. NVIDIA DOCA utnyttjar DPU-hårdvaruacceleratorer, vilket ökar datacentrets prestanda, effektivitet och säkerhet.
NVIDIA BlueField-2 DPU-funktioner
Nätverk och värdgränssnitt |
lagring |
Nätverksgränssnitt | BlueField SNAP – NVMe™ och VirtIO-blk |
Ethernet – Dubbla portar på 10/25/50/100 Gb/s, eller en enda port på 200 Gb/s | NVMe-oF™ acceleration |
InfiniBand – Dubbla portar av EDR / HDR100, eller enkel port av HDR | Kompressions- och dekompressionsacceleration |
PCI Express-gränssnitt | Datahashning och deduplicering |
8 eller 16 banor av PCIe Gen 4.0 | M.2 / U.2-kontakter för direktansluten förvaring |
PCIe-switch bi-furkation med 8 nedströmsportar | nätverk |
ARM/DDR-delsystem | RoCE, Zero Touch RoCE |
Armkärnor | Statslösa avlastningar för: |
Upp till 8 Armv8 A72-kärnor (64-bitars) pipeline | TCP/UDP/IP |
1MB L2-cache per 2 kärnor | LSO/LRO/checksum/RSS/TSS/HDS |
6MB L3-cache med flera avhysningspolicyer | VLAN-insättning/stripping |
Stöd för DDR4 DIMM | SR-IOV |
Enkel DDR4 DRAM-kontroller | VirtIO-nät |
8 GB / 16 GB / 32 GB inbyggd DDR4 | Multifunktion per port |
ECC-felskyddsstöd | VMware NetQueue-stöd |
Hårdvaruaccelerationer | Virtualiseringshierarkier |
Säkerhet | 1K in- och utgående QoS-nivåer |
Säker uppstart med hårdvara root-of-trust | Startalternativ |
Säker uppdatering av firmware | Säker start (RSA-autentiserad) |
Cerberus-kompatibel | Fjärrstart via Ethernet |
Reguljärt uttryck (RegEx) acceleration | Fjärrstart över iSCSI |
IPsec/TLS-data-i-rörelse-kryptering | PXE och UEFI |
AES-GCM 128/256-bitars nyckel | Verksamhetsledningen |
AES-XTS 256/512-bitars data-at-rest-kryptering | 1 GbE out-of-band hanteringsport |
SHA 256-bitars hårdvaruacceleration | NC-SI, MCTP över SMBus och MCTP över PCIe |
Hårdvaruaccelerator för publik nyckel | PLDM för övervakning och kontroll DSP0248 |
RSA, Diffie-Hellman, DSA, ECC, | PLDM för Firmware Update DSP026 |
EC-DSA, EC-DH | I2C-gränssnitt för enhetskontroll och konfiguration |
True Random Number Generator (TRNG) | SPI-gränssnittet blinkar |
eMMC minneskontroller | |
UART | |
USB |
En DPU för lagring, nätverk och maskininlärning
Låt oss ta en titt på hur nya BlueField-2 hanterar snabba lagringsteknologier. BlueField erbjuder en komplett lösning för lagringsplattformar, såsom NVMe over Fabrics (NVMe-oF), All-Flash Array (AFA) och en lagringskontroller för JBOF, servercache (memcachad), disaggregerad racklagring och utskalning direkt- bifogat förråd. Det smarta i denna DPU gör den till ett flexibelt val.
NVIDIA har publicerat de imponerande resultaten av deras test för BlueField-2 här. Testmiljön finns med i bloggen.
Komplett lagringslösning
BlueField-2 använder processorkraften hos armkärnor för lagringsapplikationer som All-Flash Arrays som använder NVMe-oF, Ceph, Lustre, iSCSI/TCP-avlastning, Flash Translation Layer, datakomprimering/dekompression och deduplicering.
I högpresterande lagringsarrayer fungerar BlueField-2 som systemets huvudprocessor, som hanterar lagringskontrolluppgifter och trafikavslutning. Den kan också konfigureras som en co-processor, avlastar specifika lagringsuppgifter från värden, isolerar en del av lagringsmediet från värden, eller möjliggör abstraktion av mjukvarudefinierad lagringslogik med hjälp av BlueField Arm-kärnorna.
NVMe över tyger
Genom att använda de avancerade funktionerna hos NVMe-oF, levererar BlueField RDMA-baserad teknologi fjärrlagringsåtkomstprestanda lika med lokal lagring, med minimal CPU-overhead, vilket möjliggör effektiv disaggregerad lagring och hyperkonvergerade lösningar.
Lagringsacceleration
BlueField inbyggda PCIe-switch gör det möjligt för kunder att bygga fristående lagringsenheter och ansluta en enda BlueField till flera lagringsenheter utan en extern switch.
Signaturöverlämning
BlueFields inbäddade nätverkskontroller möjliggör hårdvara kontroll av T10-dataintegritetsfält-/skyddsinformation (T10-DIF/PI), vilket minskar mjukvarukostnader och accelererar leveransen av data till applikationen. Signaturöverlämning hanteras av adaptern på ingångs- och utgående paket, vilket minskar belastningen på programvaran på Initiator- och Target-maskinerna.
BlueField för nätverk och säkerhet
Oavsett om det är i form av ett smartNIC eller som en fristående nätverksplattform, ger den nya Bluefield-2 en effektiv distribution av nätverksapplikationer. Använder en kombination av avancerade avlastningar och armberäkning BlueField avslutar nätverks- och säkerhetsprotokoll i kö.
BlueField SmartNIC
Som nätverksadapter får du flexibiliteten att helt eller delvis implementera data- och kontrollplanen och låsa upp mer effektiv användning av beräkningsresurser. Adapterns programmerbarhet ger möjlighet att integrera nya data och styrplansfunktioner.
BlueField säkerhetsfunktioner
När det kommer till säkerhet integration av krypteringsavlastningar för symmetriska och asymmetriska kryptooperationer gör det till ett utmärkt val för att implementera säkerhetsapplikationer. Säkerhet är inbyggt i datacentrets DNA infrastruktur, minska hotexponering, minimera risker och möjliggöra förebyggande, upptäckt och svar på potentiella hot i realtid.
Smärtfri virtualisering
PCIe SR-IOV-teknik från NVIDIA, datacenteradministratörer kommer att dra nytta av bättre serveranvändning samtidigt som kostnader, kraft och kabelkomplexitet, vilket möjliggör fler virtuella maskiner och fler hyresgäster på samma hårdvara. Detta löser säkert alla TCO-problem.
Överlagringsnätverk
Datacenteroperatörer använder nätverksöverlagringstekniker (VXLAN, NVGRE, GENEVE) för att övervinna skalbarhetsbarriärer. Genom att tillhandahålla avancerade avlastningsmotorer som kapslar in/avkapslar överläggsprotokollhuvuden tillåter denna DPU de traditionella avlastningarna att arbeta på de tunnlade protokollen och avlastar även NAT-routing kapacitet.
BlueField för maskininlärningsmiljöer
Naturligtvis har NVIDIA tagit sig an AI/ML-marknaden med denna nya DPU som tillhandahåller kostnadseffektiva och integrerande lösningar för maskininlärningsapparater. Flera grafikprocessorer kan anslutas via PCIe Gen 3.0/4.0-gränssnittet. Med sina RDMA- och GPUDirect® RDMA-teknologier erbjuder BlueField-2 effektiv dataleverans för realtidsanalys och datainsikter.
RDMA-acceleration
Nätverksstyrenhetens datavägshårdvara använder RDMA- och RoCE-teknik, vilket ger låg latens och hög genomströmning med nästan noll CPU-cykler.
BlueField för Multi-GPU-plattformar
BlueField-2 möjliggör anslutning av flera GPU:er genom sin integrerad PCIe-switch. BlueField PCIe 4.0-stöd är framtidssäkert för nästa generations GPU-enheter.
PeerDirect®
PeerDirect, en Mellanox-produkt, är en accelererad kommunikationsarkitektur som stöder peer-to-peer-kommunikation mellan BlueField och hårdvara från tredje part som GPU:er (t.ex. NVIDIA GPUDirect RDMA), medprocessoradaptrar (t.ex. Intel Xeon Phi) eller lagringsadaptrar. PeerDirect tillhandahåller en standardiserad arkitektur där enheter kan kommunicera direkt till fjärrenheter över hela tyget, vilket undviker onödiga systemminneskopior och CPU overhead genom att kopiera data direkt till/från enheter.
GPUDirect RDMA-teknik
Den snabba ökningen av prestanda för grafikhårdvara, kopplat med de senaste förbättringarna i GPU-programmerbarheten, har gjort grafik acceleratorer en övertygande plattform för beräkningskrävande uppgifter inom en mängd olika applikationsdomäner. Eftersom GPU tillhandahåller högt antal kärnor och flyttalsfunktioner, höghastighetsnätverk krävs för att ansluta mellan plattformarna för att ge hög genomströmning och lägsta latens för GPU-till-GPU kommunikation. GPUDirect RDMA är en implementerad teknologi inom Bluefield-2 och NVIDIA GPU:er som möjliggör en direkt väg för datautbyte mellan grafikprocessorer och höghastighetsenheter sammankoppla.
GPUDirect RDMA ger förbättringar i storleksordning för båda kommunikationsbandbredd och kommunikationslatens mellan GPU enheter av olika klusternoder.
Slutsats
NVIDIA-testningen avslöjade följande prestandaegenskaper hos BlueField DPU:
- Testning med mindre 512B I/O-storlekar resulterade i högre IOPS men lägre hastighet än linjen, medan 4KB I/O-storlekar resulterade i högre genomströmning men lägre IOPS-tal.
- 100 procent läs och 100 procent skriv arbetsbelastningar gav liknande IOPS och genomströmning, medan 50/50 blandade läs/skriv arbetsbelastningar gav en högre prestanda genom att använda båda riktningarna av nätverksanslutningen samtidigt.
- Användning av SPDK resulterade i högre prestanda än kernel-space-programvara, men till bekostnad av högre server-CPU-användning, vilket är förväntat beteende, eftersom SPDK körs i användarutrymmet med konstant polling.
- Den nyare Linux 5.15-kärnan presterade bättre än 4.18-kärnan på grund av lagringsförbättringar som regelbundet läggs till av Linux-gemenskapen.
Sammantaget är resultaten från det interna testet ganska imponerande. De BlueField-2 nådde 41.5 miljoner IOPS vilket är mer än fyra gånger så mycket som någon annan DPU på marknaden idag.
Standardnätverksresultat var också imponerande. DPU:n klockade mer än fem miljoner 4KB IOPS och sju miljoner till över 20 miljoner 512KB IOPS för NVMe-oF. Om du vill förbättra den övergripande prestandan i datacentret borde denna DPU passa.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | Rssflöde