Casa Impresa Edge Inferencing con SuperMicro Edge Server

Edge Inferencing con SuperMicro Edge Server

by Charles P. Jefferies

I server edge facilitano il processo decisionale in tempo reale fornendo risorse informatiche lontano dai data center e dal cloud. In questo articolo, eseguiamo diversi benchmark edge su un SuperMicro IoT SuperServer SYS-210SE-31A, un server edge multinodo versatile. Chiaramente, gli ingegneri avevano in mente l'inferenza dei bordi durante la sua concezione, poiché questa scatola è nata per l'inferenza.

I server edge facilitano il processo decisionale in tempo reale fornendo risorse informatiche lontano dai data center e dal cloud. In questo articolo, eseguiamo diversi benchmark edge su un SuperMicro IoT SuperServer SYS-210SE-31A, un server edge multinodo versatile. Chiaramente, gli ingegneri lo avevano fatto inferenza sui bordi in mente durante la sua concezione, poiché questa scatola è nata per inferenza.

SuperMicro IoT SuperServer SYS-210SE-31A Panoramica

  Recensione completa del SuperMicro IoT SuperServer SYS-210SE-31A rivela la sua promessa non solo per 5G e IoT ma anche per la vendita al dettaglio e persino per lo storage se abbinato a una scheda di memoria PCIe e una scheda NIC ad alta velocità.

SuperMicro IoT SuperServer SYS-210SE-31A

La natura multinodo di questo server lo rende altamente versatile. Si adatta a tre nodi CPU, ciascuno con quanto segue:

  • Un processore scalabile Intel Xeon di terza generazione (“Ice Lake”) fino a 32C/64T e 205 W, con opzioni per chip da 270 W con configurazione speciale.
  • Quattro moduli ventola.
  • Otto slot DIMM; il limite massimo di memoria è di 2 TB utilizzando DIMM 256DS da 3 GB.
  • Due slot M.2 2280/22110 PCIe Gen4.
  • Due PCIe Gen4 x16 a tutta altezza/mezza lunghezza e un PCIe Gen4 x16 a mezza altezza/mezza lunghezza.
  • Un GbE per IMPI 2.0 e un dongle KVM.

Qui puoi vedere i nodi estratti, come se fossero dei mini server montati su rack.

Nodi Supermicro SuperEdge estratti vista laterale

Questo è l'interno di un nodo. Nota come tutto si adatta perfettamente insieme.

Nodo SuperMicro IoT SuperServer SYS-210SE-31A

Il principale punto debole di questo server è l'archiviazione, con archiviazione nel nodo limitata a due slot per unità di avvio M.2 e nessun alloggiamento nativo da 2.5 pollici o 3.5 pollici. Come notato, è possibile aggiungere spazio di archiviazione PCIe abbastanza facilmente. Anche l'archiviazione di rete è un'opzione; la sua connettività oltre 1GbE dipende dalle schede di espansione.

Evidenziando l'attenzione all'edge di questo server è la sua capacità di operare in ambienti fino a 45 gradi C, con brevi periodi a 55 gradi C, e il filtro antipolvere disponibile.

Edge Inferencing: il caso dei server Edge

La nostra caratteristica, L'Edge Inferencing sta diventando una cosa seria grazie al nuovo hardware, spiega lo stato dell’edge computing. Il passaggio odierno all’edge sarebbe sembrato un passo indietro ai tempi in cui l’approccio gerarchico “hub and speak” consisteva nel riportare i dati in una posizione centrale. Il processo decisionale in tempo reale guida l’odierno passaggio all’edge, offrendo insight e tempi di risposta più rapidi e una minore dipendenza dalla connettività di rete.

L'inferenza sui bordi può essere eseguita nel cloud, anche se in genere solo per applicazioni non urgenti e non critiche. Naturalmente, la mancanza di connettività di rete significa che il cloud è inutilizzabile.

Test dell'Edge sul SuperMicro IoT SuperServer SYS-210SE-31A

E ora, passiamo ai nostri test. La capacità di una GPU di elaborare i dati guida l'inferenza edge e i server edge in genere si attaccano a schede a slot singolo e a basso profilo come NVIDIA A2 e la vecchia ma popolare T4. Il SuperMicro IoT SuperServer SYS-210SE-31A che stiamo valutando ha il T4. Sotto ci sono le due carte, la T4 a destra e la A2 a sinistra. La configurazione hardware di ciascun nodo includeva una CPU Intel Xeon Gold 6330 e 128 GB di RAM DDR4.

edge inferendo nvidia a2 e t4

Ed ecco il T4 installato in uno dei nodi SuperMicro.

SuperMicro IoT SuperServer SYS-210SE-31A Nvidia T4

Il profilo da 4 watt del T70 significa che ottiene tutta la sua potenza dallo slot PCIe. La sua architettura Turing presenta tensor core per prestazioni di precisione FP32, FP16, INT8 e INT4 molto migliori di quelle che una CPU potrebbe gestire. NVIDIA A2 ha un profilo leggermente inferiore da 40 W a 60 W ma un'architettura più nuova ed efficiente. Vedi i confronti tra le due carte nel nostro articolo sull'inferenza dei bordi dove li abbiamo testati nel Lenovo ThinkEdge SE450.

Stiamo lavorando con la suite di benchmark MLPerf Inference: Edge, che confronta le prestazioni di inferenza per i modelli DL più diffusi in vari scenari edge del mondo reale. Nei nostri test, abbiamo numeri per il modello di classificazione delle immagini ResNet50 e il modello BERT-Large NLP per le attività di risposta alle domande. Entrambi vengono eseguiti nelle configurazioni offline e SingleStream.

Lo scenario offline valuta le prestazioni di inferenza in "modalità batch", quando tutti i dati di test sono immediatamente disponibili e la latenza non è una considerazione. In questa attività, lo script di inferenza può elaborare i dati di test in qualsiasi ordine e l'obiettivo è massimizzare il numero di query al secondo (QPS=throughput). Più alto è il numero QPS, meglio è.

Al contrario, la configurazione del flusso singolo elabora un campione di test alla volta. Una volta eseguita l'inferenza su un singolo input (nel caso ResNet50, l'input è una singola immagine), viene misurata la latenza e il campione successivo viene reso disponibile allo strumento di inferenza. L'obiettivo è ridurre al minimo la latenza per l'elaborazione di ciascuna query; minore è la latenza, meglio è. La latenza del 90° percentile del flusso di query viene acquisita come metrica di destinazione per brevità.

L'immagine qui sotto proviene da un Blog NVIDIA post sull'inferenza MLPerf 0.5, che visualizza molto bene gli scenari. Puoi leggere di più sui vari scenari nell'originale Documento sull'inferenza MLPerf qui.

Scenari Nvidia MLPerf

Abbiamo testato il carico di lavoro operando su due nodi all'interno del SuperMicro IoT SuperServer SYS-210SE-31A. Il terzo nodo è stato impostato come riserva.

Segno di riferimento Nodo 1 (NVIDIA T4) Nodo 3 (NVIDIA T4)
RestNet50 non in linea 5,587 campioni/i 5,492 campioni/i
BERT SingleStream 6.8 ms (90th pct) 7.0 ms (90th pct)
BERT Non in linea 397 campioni/i 396 campioni/i

Nel complesso la NVIDIA T4 ha impressionato. Il nodo 1 ha mostrato prestazioni leggermente migliori. Detto questo, la T4 è una scheda più vecchia con un profilo di potenza più elevato rispetto alla più recente A2. Abbiamo visto testando l'A2 nel ThinkEdge SE450 che ha anche una latenza inferiore rispetto al T4 in alcuni punti, consumando molta meno energia. Le applicazioni e le considerazioni sulla potenza dovrebbero determinare la scelta tra i due. Per ora, però, siamo soddisfatti della densità che il telaio Supermicro può fornire per questi tipi di carichi di lavoro.

Considerazioni finali

La corsa all’edge porta rapidi progressi nell’edge computing. Da nessuna parte ciò è più evidente delle GPU, in particolare delle opzioni a basso profilo e a basso consumo come NVIDIA T4 e la più recente A2. Abbiamo testato il T4 nel SuperMicro IoT SuperServer SYS-210SE-31A, un edge server a tre nodi altamente versatile.

Il T4 ha mostrato prestazioni eccellenti, ancora più impressionanti considerando la sua età. Tuttavia assorbe un po' più di potenza rispetto all'A2, quindi seleziona saggiamente a seconda delle tue esigenze di inferenza dei bordi. Ci aspettiamo che la venerabile GPU abbia ancora molta vita davanti a sé poiché le aziende orientate all’edge continuano a ottimizzare l’utilizzo della GPU.

Inoltre, il server IoT di Supermicro è molto ben equipaggiato per gestire queste schede, offrendo prestazioni di inferenza molto dense all'edge.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS feed