Home Unternehmen Edge-Inferenz mit SuperMicro Edge Server

Edge-Inferenz mit SuperMicro Edge Server

by Charles P. Jefferies

Edge-Server erleichtern die Entscheidungsfindung in Echtzeit, indem sie Rechenressourcen außerhalb von Rechenzentren und der Cloud bereitstellen. In diesem Artikel führen wir mehrere Edge-Benchmarks auf einem SuperMicro IoT SuperServer SYS-210SE-31A durch, einem vielseitigen Edge-Server mit mehreren Knoten. Offensichtlich hatten die Ingenieure bei der Konzeption Edge Inferencing im Sinn, da diese Box für Inferenzen konzipiert wurde.

Edge-Server erleichtern die Entscheidungsfindung in Echtzeit, indem sie Rechenressourcen außerhalb von Rechenzentren und der Cloud bereitstellen. In diesem Artikel führen wir mehrere Edge-Benchmarks auf einem SuperMicro IoT SuperServer SYS-210SE-31A durch, einem vielseitigen Edge-Server mit mehreren Knoten. Offensichtlich hatten die Ingenieure das getan Kanteninferenzierung bei der Konzeption im Hinterkopf, denn diese Box wurde für Schlussfolgerungen geboren.

SuperMicro IoT SuperServer SYS-210SE-31A Übersicht

Unser Bewertung auf Der SuperMicro IoT SuperServer SYS-210SE-31A zeigt sein Versprechen nicht nur für 5G und IoT, sondern auch für den Einzelhandel und sogar für die Speicherung, wenn er mit einer PCIe-Speicherkarte und einer Hochgeschwindigkeits-NIC gepaart wird.

SuperMicro IoT SuperServer SYS-210SE-31A

Da dieser Server über mehrere Knoten verfügt, ist er äußerst vielseitig. Es passt auf drei CPU-Knoten mit jeweils Folgendem:

  • Ein skalierbarer Intel Xeon-Prozessor der dritten Generation („Ice Lake“) mit bis zu 32C/64T und 205 W, mit Optionen für 270-W-Chips mit spezieller Konfiguration.
  • Vier Lüftermodule.
  • Acht DIMM-Steckplätze; Die Speicherobergrenze beträgt 2 TB bei Verwendung von 256 GB 3DS-DIMMS.
  • Zwei M.2 2280/22110 PCIe Gen4-Steckplätze.
  • Zwei PCIe Gen4 x16 voller Höhe/halber Länge und ein PCIe Gen4 x16 halber Höhe/halber Länge.
  • Ein GbE für IMPI 2.0 und ein KVM-Dongle.

Hier sehen Sie die herausgezogenen Knoten, wie eigene Mini-Rackmount-Server.

Supermicro SuperEdge-Knoten, herausgezogene Seitenansicht

Dies ist das Innere eines Knotens. Beachten Sie, wie eng alles zusammenpasst.

SuperMicro IoT SuperServer SYS-210SE-31A-Knoten

Die Hauptschwäche dieses Servers ist der Speicher, da der In-Node-Speicher auf zwei M.2-Startlaufwerkssteckplätze beschränkt ist und keine nativen 2.5-Zoll- oder 3.5-Zoll-Schächte vorhanden sind. Wie bereits erwähnt, können Sie PCIe-Speicher relativ einfach hinzufügen. Auch Netzwerkspeicher ist eine Option; Seine Konnektivität über 1 GbE hinaus ist von Erweiterungskarten abhängig.

Der Edge-Fokus dieses Servers unterstreicht seine Fähigkeit, in Umgebungen mit bis zu 45 °C (mit kurzen Unterbrechungen bei 55 °C) betrieben zu werden, und sein verfügbarer Staubfilter.

Edge-Inferenzierung: Der Fall für Edge-Server

Unser Feature, Edge Inferencing wird dank neuer Hardware immer wichtiger, erklärt den Stand des Edge Computing. In früheren Zeiten, als der hierarchische „Hub-and-Spoke“-Ansatz darin bestand, Daten an einen zentralen Ort zurückzuleiten, wäre der heutige Wechsel an den Rand wie ein Rückschritt erschienen. Die Entscheidungsfindung in Echtzeit treibt den heutigen Trend in Richtung Edge voran und sorgt für schnellere Einblicke und Reaktionszeiten sowie eine geringere Abhängigkeit von der Netzwerkkonnektivität.

Edge-Inferenz kann in der Cloud durchgeführt werden, allerdings normalerweise nur für nicht zeitkritische, unkritische Anwendungen. Mangelnde Netzwerkkonnektivität bedeutet natürlich, dass die Cloud ein No-Go ist.

Testen des Edge auf dem SuperMicro IoT SuperServer SYS-210SE-31A

Und nun zu unseren Tests. Die Fähigkeit einer GPU, Daten zu verarbeiten, treibt die Edge-Inferenz voran, und Edge-Server bleiben in der Regel bei Low-Profile-Karten mit einem Steckplatz wie NVIDIA A2 und der älteren, aber beliebten T4. Der von uns evaluierte SuperMicro IoT SuperServer SYS-210SE-31A verfügt über den T4. Unten sind die beiden Karten, T4 rechts und A2 links. Die Hardwarekonfiguration jedes Knotens umfasste eine Intel Xeon Gold 6330-CPU und 128 GB DDR4-RAM.

Edge-Inferenzierung von NVIDIA A2 und T4

Und hier ist der T4, der in einem der SuperMicro-Knoten installiert ist.

SuperMicro IoT SuperServer SYS-210SE-31A Nvidia T4

Das 4-Watt-Profil des T70 bedeutet, dass er seine gesamte Leistung aus dem PCIe-Steckplatz bezieht. Seine Turing-Architektur verfügt über Tensorkerne für eine viel bessere FP32-, FP16-, INT8- und INT4-Präzisionsleistung, als eine CPU bewältigen könnte. Der NVIDIA A2 hat ein etwas niedrigeres 40-W- bis 60-W-Profil, aber eine neuere, effizientere Architektur. Vergleiche zwischen den beiden Karten finden Sie in unserem Artikel zur Kanteninferenz wo wir sie getestet haben Lenovo ThinkEdge SE450.

Wir arbeiten mit der Benchmark-Suite MLPerf Inference: Edge, die die Inferenzleistung für beliebte DL-Modelle in verschiedenen realen Edge-Szenarien vergleicht. In unseren Tests haben wir Zahlen für das Bildklassifizierungsmodell ResNet50 und das NLP-Modell BERT-Large für Frage-Antwort-Aufgaben. Beide werden in Offline- und SingleStream-Konfigurationen ausgeführt.

Das Offline-Szenario bewertet die Inferenzleistung im „Batch-Modus“, wenn alle Testdaten sofort verfügbar sind und die Latenz keine Rolle spielt. Bei dieser Aufgabe kann das Inferenzskript Testdaten in beliebiger Reihenfolge verarbeiten. Ziel ist es, die Anzahl der Abfragen pro Sekunde (QPS = Durchsatz) zu maximieren. Je höher die QPS-Zahl, desto besser.

Im Gegensatz dazu verarbeitet die Single Stream-Konfiguration jeweils ein Testbeispiel. Sobald die Inferenz für eine einzelne Eingabe durchgeführt wird (im Fall von ResNet50 handelt es sich bei der Eingabe um ein einzelnes Bild), wird die Latenz gemessen und das nächste Beispiel wird dem Inferenztool zur Verfügung gestellt. Das Ziel besteht darin, die Latenz für die Verarbeitung jeder Abfrage zu minimieren. Je geringer die Latenz, desto besser. Der Kürze halber wird die 90. Perzentillatenz des Abfragestroms als Zielmetrik erfasst.

Das Bild unten stammt von einem NVIDIA-Blog Beitrag über MLPerf-Inferenz 0.5, der die Szenarien sehr gut visualisiert. Mehr zu den verschiedenen Szenarien können Sie im Original lesen MLPerf-Inferenzpapier hier.

Nvidia MLPerf-Szenarien

Wir haben die Arbeitslast auf zwei Knoten im SuperMicro IoT SuperServer SYS-210SE-31A getestet. Der dritte Knoten wurde als Ersatzknoten festgelegt.

Benchmark Knoten 1 (NVIDIA T4) Knoten 3 (NVIDIA T4)
RestNet50 offline 5,587 Proben/s 5,492 Proben/s
BERT SingleStream 6.8 ms (90th pct) 7.0 ms (90th pct)
BERT offline 397 Proben/s 396 Proben/s

Der NVIDIA T4 hat insgesamt überzeugt. Knoten 1 zeigte eine geringfügig bessere Leistung. Allerdings ist die T4 eine ältere Karte mit einem höheren Leistungsprofil als die neuere A2. Beim Testen des A2 im ThinkEdge SE450 haben wir festgestellt, dass er an bestimmten Stellen auch eine geringere Latenz als der T4 aufweist und dabei viel weniger Strom verbraucht. Die Anwendungs- und Leistungsaspekte sollten die Wahl zwischen den beiden bestimmen. Vorerst sind wir jedoch mit der Dichte zufrieden, die das Supermicro-Gehäuse für diese Art von Arbeitsbelastung bieten kann.

Abschließende Überlegungen

Der Wettlauf zum Edge bringt rasante Fortschritte im Edge Computing mit sich. Nirgendwo ist das deutlicher als bei GPUs, insbesondere bei Low-Profile- und Low-Power-Optionen wie dem NVIDIA T4 und dem neueren A2. Wir haben den T4 im SuperMicro IoT SuperServer SYS-210SE-31A getestet, einem äußerst vielseitigen Edge-Server mit drei Knoten.

Der T4 zeigte eine hervorragende Leistung, was angesichts seines Alters umso beeindruckender ist. Allerdings verbraucht es etwas mehr Strom als das A2, also wählen Sie es mit Bedacht aus, je nachdem, welche Edge-Inferenzanforderungen Sie benötigen. Wir gehen davon aus, dass die ehrwürdige GPU noch einen Großteil ihrer Lebensdauer vor sich hat, da Edge-getriebene Unternehmen weiterhin die GPU-Nutzung optimieren.

Darüber hinaus ist der Supermicro IoT-Server sehr gut für den Umgang mit diesen Karten gerüstet und bietet eine sehr dichte Inferenzleistung am Edge.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed