NVIDIA setzt die Weiterentwicklung der Datenverarbeitungseinheit (DPU) mit der Veröffentlichung des NVIDIA BlueField-2 fort. Die NVIDIA BlueField-2 DPU wird als Rechenzentrums-Infrastruktur auf einem Chip angepriesen und ist für Unternehmens-Cloud- und HPC-Workloads optimiert. BlueField-2 kombiniert den NVIDIA ConnectX-6 Dx-Netzwerkadapter mit einer Reihe von Arm-Kernen und infrastrukturspezifischen Offloads und bietet speziell entwickelte Hardware-Beschleunigungs-Engines mit vollständiger Software-Programmierbarkeit. Brian hatte Anfang des Jahres in einem seiner regelmäßigen Podcasts eine Diskussion mit NVIDIA. Du kannst welche bekommen Einzelheiten zur NVIDIA DPU finden Sie hier.
NVIDIA setzt die Weiterentwicklung der Datenverarbeitungseinheit (DPU) mit der Veröffentlichung des NVIDIA BlueField-2 fort. Die NVIDIA BlueField-2 DPU wird als Rechenzentrums-Infrastruktur auf einem Chip angepriesen und ist für Unternehmens-Cloud- und HPC-Workloads optimiert. BlueField-2 kombiniert den NVIDIA ConnectX-6 Dx-Netzwerkadapter mit einer Reihe von Arm-Kernen und infrastrukturspezifischen Offloads und bietet speziell entwickelte Hardware-Beschleunigungs-Engines mit vollständiger Software-Programmierbarkeit. Brian hatte Anfang des Jahres in einem seiner regelmäßigen Podcasts eine Diskussion mit NVIDIA. Du kannst welche bekommen Einzelheiten zur NVIDIA DPU finden Sie hier.
Die Funktionen sind beeindruckend, aber werfen wir zunächst einen Blick auf die Entwicklung der DPU. Wenn Sie sich nicht für den Verlauf interessieren, können Sie zu den Details für NVIDIA BlueField-2 springen. Es begann in den 90er Jahren, als Intel x86-Prozessoren in Kombination mit einem Betriebssystem unübertroffene Leistung für Unternehmen lieferten. Als nächstes kam der Client/Server und dann die verteilte Verarbeitung. Die Softwareentwicklung und die wachsenden Datenbanken beschleunigten sich rasant, was zu einem explosionsartigen Anstieg des Hardware-Einsatzes im Rechenzentrum führte.
Anfang der 2000er Jahre führte VMware den ESX-Hypervisor ein und virtualisierte die x86-CPU, sodass mehrere Betriebssysteminstanzen auf einem einzigen Server ausgeführt werden konnten. VMs waren nicht unbedingt neu; IBM betrieb viele Jahre lang virtuelle Maschinen auf seinen Mainframes, bevor es den ESX-Hypervisor entwickelte. Diese Entwicklung führte jedoch zu einem Wachstum der Aggregation der Rechenzentrumsinfrastruktur.
Hardware war nun programmierbar, indem Entwickler Code schrieben, der virtuelle Maschinen ohne manuelles Eingreifen definierte und bereitstellte. Dies führte schließlich zu dem Vorstoß zur Migration zum Cloud Computing.
VMware erkannte den Erfolg seiner ESX-Plattform und stieg schnell in die Speicher- und Netzwerkvirtualisierung ein. Um nicht zu übertreffen, hat sich EMC mit Cisco zusammengetan, um eine eigene virtualisierte Netzwerk- und Speicherlösung zu entwickeln. Es kam zu einer Flut von Akquisitionen. VMware hat vSANS entwickelt, das in seine vSphere-Plattform integriert ist.
Die Entwicklung dieser konvergenten Infrastruktur wird als Software-Defined Data Center (SDDC) bezeichnet. Die großen Player Microsoft, VMware, Cisco und EMC kämpften alle darum, den SDDC-Markt zu erobern. Alles wurde programmierbar: E/A, Sicherheit, Betriebssystem, Anwendungen usw. SDDC war nur eine CPU-Komponente und belastete die verfügbaren Ressourcen, die für andere Dienste verwendet wurden.
All diese Konvergenz und Programmierbarkeit führten zur Entwicklung der künstlichen Intelligenz (KI), bei der GPUs entwickelt wurden, um den Verarbeitungsanforderungen dieser grafikintensiven Anwendungen gerecht zu werden. Dies führt zur Entwicklung von Hardware, die einige Vorgänge von der CPU entlastet. Netzwerkfunktionen, die typischerweise CPU-intensiv sind, wurden ausgelagert und NVIDIA nutzte diese neue Chance und übernahm Mellanox, um intelligente Netzwerkadapter zu entwickeln.
GPUs wurden intelligenter und intelligente NICs spielten eine entscheidende Rolle dabei, die Netzwerk- und Grafikverarbeitung aus der gesamten SDDC-Aggregation zu entfernen. Letztendlich ist die Entwicklung der DPU das Ergebnis der von der CPU entladenen Intelligenz.
Die neue NVIDIA BlueField-2 DPU hat ein System auf einem Chip geschaffen, das Multi-Core-CPU, leistungsstarke Netzwerkschnittstelle und programmierbare Beschleunigungs-Engines kombiniert.
NVIDIA BlueField-2 DPU – Das Fleisch
CPU vs. GPU vs. DPU: Was unterscheidet eine DPU?
Eine DPU ist eine neue Klasse programmierbarer Prozessoren, die drei Schlüsselelemente vereint. Eine DPU ist ein System auf einem Chip oder SoC, das Folgendes kombiniert:
- Eine branchenübliche, leistungsstarke, softwareprogrammierbare Multi-Core-CPU, die typischerweise auf der weit verbreiteten Arm-Architektur basiert und eng mit den anderen SoC-Komponenten gekoppelt ist.
- Eine leistungsstarke Netzwerkschnittstelle, die Daten mit Leitungsgeschwindigkeit oder der Geschwindigkeit des restlichen Netzwerks analysieren, verarbeiten und effizient an GPUs und CPUs übertragen kann.
- Ein umfangreicher Satz flexibler und programmierbarer Beschleunigungs-Engines, die die Anwendungsleistung unter anderem für KI und maschinelles Lernen, Sicherheit, Telekommunikation und Speicher entlasten und verbessern.
Die NVIDIA® BlueField®-2 DPU ist die erste Rechenzentrums-Infrastruktur auf einem Chip, die für moderne Cloud und HPC optimiert ist. Bereitstellung einer breiten Palette beschleunigter, softwaredefinierter Netzwerk-, Speicher-, Sicherheits- und Verwaltungsdienste mit der Möglichkeit, die Rechenzentrumsinfrastruktur auszulagern, zu beschleunigen und zu isolieren. Ausgestattet mit 200-Gbit/s-Ethernet- oder InfiniBand-Konnektivität beschleunigt die BlueField-2-DPU den Netzwerkpfad sowohl für die Steuerungsebene als auch für die Datenebene und ist mit „Zero Trust“-Sicherheit ausgestattet, um Datenschutzverletzungen und Cyberangriffe zu verhindern.
NVIDIA ConnectX®-6 Dx kombiniert den Netzwerkadapter mit einer Reihe von Arm®-Kernen und infrastrukturspezifischen Offloads und bietet speziell entwickelte Hardware-Beschleunigungs-Engines mit vollständiger Software-Programmierbarkeit. BlueField-2 befindet sich am Rande jedes Servers und ermöglicht agile, sichere und leistungsstarke Cloud- und künstliche Intelligenz (KI)-Workloads, senkt die Gesamtbetriebskosten und steigert gleichzeitig die Effizienz des Rechenzentrums.
Das NVIDIA DOCA™-Software-Framework ermöglicht Entwicklern die schnelle Erstellung von Anwendungen und Diensten für die BlueField-2-DPU. NVIDIA DOCA nutzt DPU-Hardwarebeschleuniger und steigert so die Leistung, Effizienz und Sicherheit des Rechenzentrums.
NVIDIA BlueField-2 DPU-Funktionen
Netzwerk- und Hostschnittstellen |
Lagerung |
Netzwerk Schnittstellen | BlueField SNAP – NVMe™ und VirtIO-blk |
Ethernet – Zwei Ports mit 10/25/50/100 Gbit/s oder ein einzelner Port mit 200 Gbit/s | NVMe-oF™-Beschleunigung |
InfiniBand – Zwei Ports von EDR/HDR100 oder ein einzelner Port von HDR | Kompressions- und Dekompressionsbeschleunigung |
PCI-Express-Schnittstelle | Daten-Hashing und Deduplizierung |
8 oder 16 Lanes PCIe Gen 4.0 | M.2-/U.2-Anschlüsse für direkt angeschlossenen Speicher |
PCIe-Switch-Bifurkation mit 8 Downstream-Ports | Networking mit anderen Teilnehmern |
ARM/DDR-Subsystem | RoCE, Zero Touch RoCE |
Armkerne | Zustandslose Auslagerungen für: |
Bis zu 8 Armv8 A72-Kerne (64-Bit)-Pipeline | TCP/UDP/IP |
1 MB L2-Cache pro 2 Kerne | LSO/LRO/Prüfsumme/RSS/TSS/HDS |
6 MB L3-Cache mit mehreren Räumungsrichtlinien | VLAN-Einfügung/Stripping |
DDR4-DIMM-Unterstützung | SR-IOV |
Einzelner DDR4-DRAM-Controller | VirtIO-net |
8 GB / 16 GB / 32 GB integrierter DDR4 | Multifunktion pro Port |
Unterstützung für ECC-Fehlerschutz | VMware NetQueue-Unterstützung |
Hardwarebeschleunigungen | Virtualisierungshierarchien |
Sicherheit | 1K Eingangs- und Ausgangs-QoS-Level |
Sicherer Start mit Hardware-Root-of-Trust | Boot-Optionen |
Sicheres Firmware-Update | Sicherer Start (RSA-authentifiziert) |
Cerberus-konform | Remote-Boot über Ethernet |
Beschleunigung regulärer Ausdrücke (RegEx). | Remote-Boot über iSCSI |
IPsec/TLS-Data-in-Motion-Verschlüsselung | PXE und UEFI |
AES-GCM 128/256-Bit-Schlüssel | Management |
AES-XTS 256/512-Bit-Data-at-Rest-Verschlüsselung | 1-GbE-Out-of-Band-Management-Port |
SHA 256-Bit-Hardwarebeschleunigung | NC-SI, MCTP über SMBus und MCTP über PCIe |
Hardware-Public-Key-Beschleuniger | PLDM für Überwachung und Steuerung DSP0248 |
RSA, Diffie-Hellman, DSA, ECC, | PLDM für Firmware-Update DSP026 |
EC-DSA, EC-DH | I2C-Schnittstelle zur Gerätesteuerung und -konfiguration |
Echter Zufallszahlengenerator (TRNG) | SPI-Schnittstelle zum Flashen |
eMMC-Speichercontroller | |
UART | |
USB |
Eine DPU für Speicher, Netzwerke und maschinelles Lernen
Werfen wir einen Blick darauf, wie das neue BlueField-2 schnelle Speichertechnologien angeht. BlueField bietet eine Komplettlösung für Speicherplattformen wie NVMe over Fabrics (NVMe-oF), All-Flash Array (AFA) und einen Speichercontroller für JBOF, Server-Caching (Memcached), disaggregierten Rack-Speicher und Scale-Out-Direktspeicher. angeschlossener Speicher. Die Intelligenz dieser DPU macht sie zu einer flexiblen Wahl.
NVIDIA hat die beeindruckenden Ergebnisse ihres Tests veröffentlicht BlueField-2 hier. Die Testumgebung ist im Blog enthalten.
Komplette Speicherlösung
BlueField-2 nutzt die Rechenleistung von ARM-Kernen für Speicheranwendungen wie All-Flash-Arrays mit NVMe-oF, Ceph, Lustre, iSCSI/TCP-Offload, Flash Translation Layer, Datenkomprimierung/-dekomprimierung und Deduplizierung.
In Hochleistungsspeicher-Arrays fungiert BlueField-2 als Haupt-CPU des Systems und übernimmt die Aufgaben des Speichercontrollers und die Beendigung des Datenverkehrs. Er kann auch als Co-Prozessor konfiguriert werden, um bestimmte Speicheraufgaben vom Host zu entlasten, einen Teil der Speichermedien vom Host zu isolieren oder die Abstraktion softwaredefinierter Speicherlogik mithilfe der BlueField Arm-Kerne zu ermöglichen.
NVMe over Fabrics-Funktionen
Unter Nutzung der erweiterten Funktionen von NVMe-oF bietet die RDMA-basierte Technologie von BlueField eine Remote-Speicherzugriffsleistung, die der von lokalem Speicher entspricht, mit minimalem CPU-Overhead, was effiziente disaggregierte Speicher- und hyperkonvergente Lösungen ermöglicht.
Speicherbeschleunigung
Der in BlueField integrierte PCIe-Switch ermöglicht es Kunden, eigenständige Speichergeräte zu erstellen und ein einzelnes BlueField daran anzuschließen mehrere Speichergeräte ohne externen Switch.
Unterschriftenübergabe
Der eingebettete BlueField-Netzwerkcontroller ermöglicht Hardware Überprüfung der T10-Datenintegritätsfeld-/Schutzinformationen (T10-DIF/PI), wodurch der Software-Overhead reduziert und die Übermittlung von Daten an die Anwendung beschleunigt wird. Die Signaturübergabe wird vom Adapter für eingehende und ausgehende Pakete durchgeführt, wodurch die Belastung der Software auf den Initiator- und Zielmaschinen verringert wird.
BlueField für Netzwerk und Sicherheit
Ob in Form einer smartNIC oder als eigenständige Netzwerkplattform, der neue Bluefield-2 ermöglicht eine effiziente Bereitstellung von Netzwerkanwendungen. Verwendung einer Kombination aus erweiterten Offloads und Arm-Computing BlueField beendet Netzwerk- und Sicherheitsprotokolle im Einklang.
BlueField SmartNIC
Als Netzwerkadapter erhalten Sie die Flexibilität ganz oder teilweise Implementieren Sie die Daten- und Steuerungsebenen und ermöglichen Sie so eine effizientere Nutzung der Rechenressourcen. Die Programmierbarkeit des Adapters bietet die Möglichkeit, neue Daten- und Steuerungsebenenfunktionen zu integrieren.
BlueField-Sicherheitsfunktionen
Wenn es um Sicherheit geht, ist die Integration von Verschlüsselungs-Offloads für symmetrische und asymmetrische Krypto-Operationen machen es zu einer großartigen Wahl für die Implementierung von Sicherheitsanwendungen. Sicherheit ist in der DNA des Rechenzentrums verankert Infrastruktur, Reduzierung der Bedrohungslage, Minimierung von Risiken und Ermöglichung Prävention, Erkennung und Reaktion auf potenzielle Bedrohungen in Echtzeit.
Schmerzlose Virtualisierung
PCIe SR-IOV-Technologie von NVIDIA, Rechenzentrumsadministratoren wird von einer besseren Serverauslastung profitieren und gleichzeitig Kosten, Stromverbrauch usw. senken Die Kabelkomplexität verringert sich, was mehr virtuelle Maschinen und mehr Mandanten ermöglicht auf der gleichen Hardware. Damit werden sicherlich alle TCO-Bedenken ausgeräumt.
Overlay-Netzwerke
Rechenzentrumsbetreiber nutzen Netzwerk-Overlay-Technologien (VXLAN, NVGRE, GENEVE) zur Überwindung von Skalierbarkeitsbarrieren. Durch Fortschrittliche Entlademotoren, die das einkapseln/entkapseln Overlay-Protokoll-Header ermöglicht diese DPU die herkömmlichen Offloads um mit den getunnelten Protokollen zu arbeiten und entlastet auch das NAT-Routing Funktionen.
BlueField für maschinelle Lernumgebungen
Natürlich hat NVIDIA mit dieser neuen DPU den KI/ML-Markt angesprochen und bietet kostengünstige und integrative Lösungen für Machine-Learning-Appliances. Über die PCIe Gen 3.0/4.0-Schnittstelle können mehrere GPUs angeschlossen werden. Mit seinen RDMA- und GPUDirect® RDMA-Technologien bietet BlueField-2 eine effiziente Datenbereitstellung für Echtzeitanalysen und Dateneinblicke.
RDMA-Beschleunigung
Die Datenpfad-Hardware des Netzwerkcontrollers nutzt RDMA- und RoCE-Technologie und sorgt für geringe Latenz und hohen Durchsatz bei nahezu null CPU-Zyklen.
BlueField für Multi-GPU-Plattformen
BlueField-2 ermöglicht den Anschluss mehrerer GPUs integrierter PCIe-Switch. Die BlueField PCIe 4.0-Unterstützung ist für GPU-Geräte der nächsten Generation zukunftssicher.
PeerDirect®
PeerDirect, ein Mellanox-Produkt, ist eine beschleunigte Kommunikationsarchitektur das die Peer-to-Peer-Kommunikation zwischen BlueField und unterstützt Hardware von Drittanbietern wie GPUs (z. B. NVIDIA GPUDirect RDMA), Co-Prozessor-Adapter (z. B. Intel Xeon Phi) oder Speicheradapter. PeerDirect bietet eine standardisierte Architektur, in der Geräte können über die Fabric direkt mit Remote-Geräten kommunizieren, wodurch unnötige Kopien des Systemspeichers und der CPU vermieden werden Mehraufwand durch direktes Kopieren von Daten auf/von Geräten.
GPUDirect RDMA-Technologie
Damit einher geht die rasante Leistungssteigerung der Grafikhardware mit den jüngsten Verbesserungen der GPU-Programmierbarkeit hat Grafik gemacht Beschleuniger eine überzeugende Plattform für rechenintensiv Aufgaben in den unterschiedlichsten Anwendungsbereichen. Da GPUs bieten Aufgrund der hohen Kernzahl und der Gleitkomma-Betriebsfähigkeiten ist für die Verbindung zwischen den Plattformen eine Hochgeschwindigkeitsvernetzung erforderlich um einen hohen Durchsatz und die niedrigste Latenz für GPU-zu-GPU bereitzustellen Kommunikation. GPUDirect RDMA ist eine implementierte Technologie innerhalb von Bluefield-2- und NVIDIA-GPUs, die einen direkten Pfad ermöglichen für den Datenaustausch zwischen GPUs und der Hochgeschwindigkeit verbinden.
GPUDirect RDMA bietet für beide Größenordnungsverbesserungen Kommunikationsbandbreite und Kommunikationslatenz zwischen GPU Geräte verschiedener Clusterknoten.
Schlussfolgerung
Die NVIDIA-Tests ergaben die folgenden Leistungsmerkmale der BlueField-DPU:
- Tests mit kleineren 512-B-E/A-Größen führten zu höheren IOPS, aber einem geringeren Durchsatz als die Leitungsrate, während 4-KB-E/A-Größen zu einem höheren Durchsatz, aber niedrigeren IOPS-Zahlen führten.
- 100-prozentige Lese- und 100-prozentige Schreib-Workloads sorgten für ähnliche IOPS und Durchsatz, während 50/50 gemischte Lese-/Schreib-Workloads durch die gleichzeitige Nutzung beider Richtungen der Netzwerkverbindung eine höhere Leistung erbrachten.
- Die Verwendung von SPDK führte zu einer höheren Leistung als Kernel-Space-Software, allerdings auf Kosten einer höheren CPU-Auslastung des Servers, was zu erwarten ist, da SPDK im Userspace mit ständiger Abfrage ausgeführt wird.
- Der neuere Linux 5.15-Kernel schnitt aufgrund der von der Linux-Community regelmäßig hinzugefügten Speicherverbesserungen besser ab als der 4.18-Kernel.
Insgesamt sind die Ergebnisse des internen Tests ziemlich beeindruckend. Der BlueField-2 erreichte 41.5 Millionen IOPS Das ist mehr als viermal so viel wie bei jeder anderen DPU auf dem Markt.
Auch die Standard-Networking-Ergebnisse waren beeindruckend. Die DPU taktete mehr als fünf Millionen 4 KB IOPS und sieben Millionen bis über 20 Millionen 512 KB IOPS für NVMe-oF. Wenn Sie die Gesamtleistung im Rechenzentrum verbessern möchten, sollte diese DPU genau das Richtige für Sie sein.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed