NVIDIA continua l'evoluzione dell'unità di elaborazione dati (DPU) con il rilascio di NVIDIA BlueField-2. La DPU NVIDIA BlueField-2 è pubblicizzata come l'infrastruttura su chip del data center e ottimizzata per carichi di lavoro cloud e HPC aziendali. BlueField-2 combina l'adattatore di rete NVIDIA ConnectX-6 Dx con una serie di core Arm e offload specifici dell'infrastruttura e offre motori di accelerazione hardware appositamente realizzati con programmabilità software completa. Brian ha avuto una discussione all'inizio di quest'anno con NVIDIA in uno dei suoi podcast abituali. Puoi prenderne un po' Dettagli della DPU NVIDIA qui.
NVIDIA continua l'evoluzione dell'unità di elaborazione dati (DPU) con il rilascio di NVIDIA BlueField-2. La DPU NVIDIA BlueField-2 è pubblicizzata come l'infrastruttura su chip del data center e ottimizzata per carichi di lavoro cloud e HPC aziendali. BlueField-2 combina l'adattatore di rete NVIDIA ConnectX-6 Dx con una serie di core Arm e offload specifici dell'infrastruttura e offre motori di accelerazione hardware appositamente realizzati con programmabilità software completa. Brian ha avuto una discussione all'inizio di quest'anno con NVIDIA in uno dei suoi podcast abituali. Puoi prenderne un po' Dettagli della DPU NVIDIA qui.
Le funzionalità sono impressionanti, ma prima diamo un'occhiata all'evoluzione della DPU. Se non sei interessato alla cronologia, puoi passare ai dettagli di NVIDIA BlueField-2. Tutto è iniziato negli anni ’90, quando i processori Intel x86 offrivano alle aziende una potenza senza pari, abbinata a un sistema operativo. Poi è arrivato il client/server, quindi l'avvento dell'elaborazione distribuita. Lo sviluppo del software e la crescita dei database hanno subito una rapida accelerazione, provocando un'esplosione dell'implementazione dell'hardware nei data center.
All'inizio degli anni 2000, VMware ha introdotto l'hypervisor ESX e virtualizzato la CPU x86, consentendo l'esecuzione di più istanze del sistema operativo su un singolo server. Le VM non erano necessariamente nuove; IBM ha utilizzato macchine virtuali sui propri mainframe per molti anni prima di creare l'hypervisor ESX. Tuttavia, questo sviluppo ha portato alla crescita dell’aggregazione delle infrastrutture dei data center.
L'hardware era ora programmabile con gli sviluppatori che scrivevano codice che definiva e forniva macchine virtuali senza intervento manuale. Ciò ha portato alla spinta finale per la migrazione al cloud computing.
VMware si è resa conto del successo della sua piattaforma ESX ed è passata rapidamente alla virtualizzazione dello storage e della rete. Per non essere da meno, EMC ha collaborato con Cisco per creare la propria soluzione di rete e storage virtualizzata. Si è verificata una raffica di acquisizioni. VMware ha sviluppato vSANS integrato nella propria piattaforma vSphere.
Lo sviluppo di questa infrastruttura convergente prende il nome di Software-Defined Data Center (SDDC). I grandi player, Microsoft, VMware, Cisco ed EMC, hanno tutti lottato per conquistare il mercato SDDC. Tutto è diventato programmabile: I/O, sicurezza, sistema operativo, applicazioni, ecc. L'SDDC era solo un componente della CPU, che gravava sulle risorse disponibili utilizzate per altri servizi.
Tutta questa convergenza e programmabilità ha portato allo sviluppo dell'intelligenza artificiale (AI), in cui le GPU sono state sviluppate per soddisfare i requisiti di elaborazione per queste applicazioni ad uso intensivo di grafica. Ciò porta allo sviluppo di hardware che scarica alcune operazioni dalla CPU. Le funzioni di rete, tipicamente ad uso intensivo della CPU, sono state scaricate e NVIDIA ha colto al volo questa nuova opportunità, acquisendo Mellanox per sviluppare adattatori di rete intelligenti.
Le GPU sono diventate più intelligenti e le schede NIC intelligenti sono state fondamentali nel rimuovere l'elaborazione di rete e grafica dall'aggregazione complessiva dell'SDDC. In definitiva, lo sviluppo della DPU è il risultato dell'intelligenza scaricata dalla CPU.
La nuova DPU NVIDIA BlueField-2 ha creato un sistema su un chip che combina CPU multi-core, interfaccia di rete ad alte prestazioni e motori di accelerazione programmabili.
DPU NVIDIA BlueField-2 – La carne
CPU vs GPU vs DPU: cosa rende diversa una DPU?
Una DPU è una nuova classe di processori programmabili che combina tre elementi chiave. Una DPU è un sistema su chip, o SoC, che combina:
- Una CPU multi-core standard del settore, ad alte prestazioni, programmabile via software, tipicamente basata sull'architettura Arm ampiamente utilizzata, strettamente accoppiata agli altri componenti SoC.
- Un'interfaccia di rete ad alte prestazioni in grado di analizzare, elaborare e trasferire in modo efficiente i dati alla velocità di linea, o alla velocità del resto della rete, a GPU e CPU.
- Un ricco set di motori di accelerazione flessibili e programmabili che scaricano e migliorano le prestazioni delle applicazioni per l'intelligenza artificiale e l'apprendimento automatico, la sicurezza, le telecomunicazioni e l'archiviazione, tra gli altri.
La DPU NVIDIA® BlueField®-2 è la prima infrastruttura su chip per data center ottimizzata per il cloud e l'HPC moderni. Fornitura di un'ampia gamma di servizi accelerati di rete, archiviazione, sicurezza e gestione definiti dal software con la possibilità di scaricare, accelerare e isolare l'infrastruttura del data center. Dotata di connettività Ethernet o InfiniBand da 200 Gb/s, la DPU BlueField-2 accelera il percorso di rete sia per il piano di controllo che per il piano dati ed è dotata di sicurezza "zero trust" per prevenire violazioni dei dati e attacchi informatici.
NVIDIA ConnectX®-6 Dx combina l'adattatore di rete con una serie di core Arm® e offload specifici dell'infrastruttura, offrendo motori di accelerazione hardware appositamente realizzati con programmabilità software completa. Collocato ai margini di ogni server, BlueField-2 consente carichi di lavoro cloud e di intelligenza artificiale (AI) agili, sicuri e ad alte prestazioni e riduce il TCO aumentando al contempo l'efficienza del data center.
Il framework software NVIDIA DOCA™ consente agli sviluppatori di creare rapidamente applicazioni e servizi per la DPU BlueField-2. NVIDIA DOCA sfrutta gli acceleratori hardware DPU, aumentando le prestazioni, l'efficienza e la sicurezza del data center.
Caratteristiche della DPU NVIDIA BlueField-2
Interfacce di rete e host |
Archiviazione |
Interfacce di rete | BlueField SNAP – NVMe™ e VirtIO-blk |
Ethernet: doppie porte da 10/25/50/100 Gb/s o una porta singola da 200 Gb/s | NVMe-oF™ accelerazione |
InfiniBand: doppie porte EDR/HDR100 o porta singola HDR | Accelerazione di compressione e decompressione |
Interfaccia PCI Express | Hashing e deduplicazione dei dati |
8 o 16 linee PCIe Gen 4.0 | Connettori M.2/U.2 per l'archiviazione con collegamento diretto |
Switch PCIe biforcato con 8 porte downstream | Networking |
Sottosistema ARM/DDR | RoCE, Zero Touch RoCE |
Nuclei del braccio | Offload senza stato per: |
Pipeline fino a 8 core Armv8 A72 (64 bit). | TCP/UDP/IP |
Cache L1 da 2 MB per 2 core | LSO/LRO/checksum/RSS/TSS/HDS |
Cache L6 da 3 MB con pluralità di policy di eliminazione | Inserimento/stripping della VLAN |
Supporto DIMM DDR4 | SR-IOV |
Controller DRAM DDR4 singolo | VirtIO-net |
8 GB/16 GB/32 GB di DDR4 integrata | Multifunzione per porta |
Supporto per la protezione dagli errori ECC | Supporto per VMware NetQueue |
Accelerazioni hardware | Gerarchie di virtualizzazione |
Sicurezza | Livelli QoS in ingresso e in uscita da 1K |
Avvio sicuro con root of trust hardware | Opzioni di avvio |
Aggiornamento firmware sicuro | Avvio sicuro (autenticazione RSA) |
Conforme a Cerberus | Avvio remoto tramite Ethernet |
Accelerazione delle espressioni regolari (RegEx). | Avvio remoto tramite iSCSI |
Crittografia dei dati in movimento IPsec/TLS | PXE e UEFI |
Chiave AES-GCM 128/256 bit | Management |
Crittografia dei dati inattivi AES-XTS a 256/512 bit | Porta di gestione fuori banda da 1 GbE |
Accelerazione hardware SHA a 256 bit | NC-SI, MCTP su SMBus e MCTP su PCIe |
Acceleratore hardware a chiave pubblica | PLDM per monitoraggio e controllo DSP0248 |
RSA, Diffie-Hellman, DSA, ECC, | PLDM per l'aggiornamento del firmware DSP026 |
EC-DSA, EC-DH | Interfaccia I2C per il controllo e la configurazione del dispositivo |
Vero generatore di numeri casuali (TRNG) | Interfaccia SPI per flashare |
controller di memoria eMMC | |
bus digitale UART | |
USB |
Una DPU per storage, reti e machine learning
Diamo un'occhiata a come il nuovo BlueField-2 affronta le tecnologie di archiviazione veloce. BlueField offre una soluzione completa per piattaforme di storage, come NVMe over Fabrics (NVMe-oF), All-Flash Array (AFA) e un controller di storage per JBOF, caching del server (memcached), storage su rack disaggregato e scalabilità orizzontale. deposito annesso. L'intelligenza di questa DPU la rende una scelta flessibile.
NVIDIA ha pubblicato gli impressionanti risultati del test per BlueField-2 qui. L'ambiente di test è incluso nel blog.
Soluzione di archiviazione completa
BlueField-2 utilizza la potenza di elaborazione dei core Arm per applicazioni di archiviazione come array All-Flash che utilizzano NVMe-oF, Ceph, Lustre, offload iSCSI/TCP, Flash Translation Layer, compressione/decompressione dei dati e deduplica.
Negli array di archiviazione ad alte prestazioni, BlueField-2 funziona come la CPU principale del sistema, gestendo le attività del controller di archiviazione e la terminazione del traffico. Può anche essere configurato come coprocessore, scaricando attività di archiviazione specifiche dall'host, isolando parte del supporto di archiviazione dall'host o consentendo l'astrazione della logica di archiviazione definita dal software utilizzando i core BlueField Arm.
Funzionalità NVMe su Fabric
Utilizzando le funzionalità avanzate di NVMe-oF, la tecnologia basata su BlueField RDMA offre prestazioni di accesso allo spazio di archiviazione remoto pari a quelle dello spazio di archiviazione locale, con un sovraccarico minimo della CPU, consentendo archiviazione disaggregata efficiente e soluzioni iperconvergenti.
Accelerazione di archiviazione
Lo switch PCIe integrato BlueField consente ai clienti di creare dispositivi di archiviazione autonomi e connettere un singolo BlueField a più dispositivi di archiviazione senza uno switch esterno.
Consegna della firma
Il controller di rete integrato BlueField abilita l'hardware controllo delle informazioni sul campo/protezione dell'integrità dei dati T10 (T10-DIF/PI), riducendo il sovraccarico del software e accelerando la consegna dei dati all'applicazione. Il trasferimento della firma viene gestito dall'adattatore sui pacchetti in ingresso e in uscita, riducendo il carico sul software sulle macchine Iniziatore e di destinazione.
BlueField per reti e sicurezza
Sia sotto forma di smartNIC che come piattaforma di rete autonoma, il nuovo Bluefield-2 fornisce un'efficiente implementazione delle applicazioni di rete. Utilizzando una combinazione di offload avanzati e calcolo Arm funzionalità, BlueField termina i protocolli di rete e di sicurezza in linea.
BlueField SmartNIC
Come adattatore di rete, ottieni la flessibilità totale o parziale implementare i dati e i piani di controllo, consentendo un utilizzo più efficiente delle risorse di elaborazione. La programmabilità dell'adattatore offre la possibilità di integrare nuovi dati e funzionalità del piano di controllo.
Funzionalità di sicurezza BlueField
Quando si tratta di sicurezza, il integrazione degli offload di crittografia per simmetrici e asimmetrici le operazioni crittografiche lo rendono un'ottima scelta per l'implementazione di applicazioni di sicurezza. La sicurezza è integrata nel DNA del data center infrastruttura, riducendo l’esposizione alle minacce, minimizzando i rischi e abilitando prevenzione, rilevamento e risposta a potenziali minacce in tempo reale.
Virtualizzazione indolore
Tecnologia PCIe SR-IOV di NVIDIA, amministratori di data center trarranno vantaggio da un migliore utilizzo del server riducendo al contempo costi, energia e complessità dei cavi, consentendo più macchine virtuali e più tenant sullo stesso hardware. Ciò risolve sicuramente qualsiasi problema di TCO.
Reti in overlay
Gli operatori dei data center utilizzano tecnologie di sovrapposizione di rete (VXLAN, NVGRE, GENEVE) per superare le barriere della scalabilità. Fornendo motori di offload avanzati che incapsulano/de-incapsulano i file intestazioni di protocollo sovrapposte, questa DPU consente gli offload tradizionali per operare sui protocolli tunneled e alleggerire anche il routing NAT capacità.
BlueField per ambienti di machine learning
Naturalmente, NVIDIA si è rivolta al mercato AI/ML con questa nuova DPU fornendo soluzioni convenienti e integrative per gli apparecchi di machine learning. È possibile collegare più GPU tramite l'interfaccia PCIe Gen 3.0/4.0. Con le sue tecnologie RDMA e GPUDirect® RDMA, BlueField-2 offre una distribuzione efficiente dei dati per analisi e approfondimenti sui dati in tempo reale.
Accelerazione RDMA
L'hardware del percorso dati del controller di rete utilizza la tecnologia RDMA e RoCE, offrendo bassa latenza e throughput elevato con cicli CPU prossimi allo zero.
BlueField per piattaforme multi-GPU
BlueField-2 consente il collegamento di più GPU tramite il suo interruttore PCIe integrato. Il supporto BlueField PCIe 4.0 è a prova di futuro per i dispositivi GPU di prossima generazione.
PeerDirect®
PeerDirect, un prodotto Mellanox, è un'architettura di comunicazione accelerata che supporta la comunicazione peer-to-peer tra BlueField e hardware di terze parti come GPU (ad esempio NVIDIA GPUDirect RDMA), adattatori per coprocessori (ad esempio Intel Xeon Phi) o adattatori di archiviazione. PeerDirect fornisce un'architettura standardizzata in cui i dispositivi possono comunicare direttamente con dispositivi remoti attraverso il tessuto, evitando inutili copie della memoria di sistema e della CPU sovraccarico copiando i dati direttamente da/verso i dispositivi.
Tecnologia GPUDirect RDMA
Il rapido aumento delle prestazioni dell'hardware grafico, accoppiato con i recenti miglioramenti nella programmabilità della GPU, ha reso la grafica acceleratori una piattaforma avvincente per esigenze computazionali compiti in un’ampia varietà di domini applicativi. Poiché le GPU forniscono numero elevato di core e funzionalità operative in virgola mobile, per la connessione tra le piattaforme è necessaria una rete ad alta velocità per fornire un throughput elevato e la latenza più bassa per il collegamento da GPU a GPU comunicazioni. GPUDirect RDMA è una tecnologia implementata all'interno di Bluefield-2 e GPU NVIDIA che consente un percorso diretto per lo scambio di dati tra GPU e l'alta velocità interconnettersi.
GPUDirect RDMA fornisce miglioramenti di ordine di grandezza per entrambi larghezza di banda di comunicazione e latenza di comunicazione tra GPU dispositivi di diversi nodi del cluster.
Conclusione
I test NVIDIA hanno rivelato le seguenti caratteristiche prestazionali della DPU BlueField:
- I test con dimensioni di I/O 512B più piccole hanno prodotto IOPS più elevati ma un throughput inferiore a quello della linea, mentre le dimensioni di I/O da 4KB hanno prodotto un throughput più elevato ma numeri di IOPS inferiori.
- I carichi di lavoro di lettura al 100% e di scrittura al 100% hanno fornito IOPS e throughput simili, mentre i carichi di lavoro di lettura/scrittura misti 50/50 hanno prodotto prestazioni più elevate utilizzando entrambe le direzioni della connessione di rete contemporaneamente.
- L'utilizzo di SPDK ha prodotto prestazioni più elevate rispetto al software in spazio kernel, ma al costo di un maggiore utilizzo della CPU del server, che è un comportamento previsto, poiché SPDK viene eseguito nello spazio utente con polling costante.
- Il nuovo kernel Linux 5.15 ha funzionato meglio del kernel 4.18 grazie ai miglioramenti di archiviazione aggiunti regolarmente dalla comunità Linux.
Nel complesso, i risultati del test interno sono piuttosto impressionanti. IL BlueField-2 ha raggiunto 41.5 milioni di IOPS che è più di quattro volte superiore a quello di qualsiasi altra DPU oggi sul mercato.
Anche i risultati del networking standard sono stati impressionanti. La DPU ha registrato più di cinque milioni di IOPS da 4 KB e da sette a oltre 20 milioni di IOPS da 512 KB per NVMe-oF. Se stai cercando di migliorare le prestazioni complessive del data center, questa DPU dovrebbe fare al caso tuo.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS feed