Inicio Empresa Inferencia perimetral con SuperMicro Edge Server

Inferencia perimetral con SuperMicro Edge Server

by Charles P. Jefferies

Los servidores perimetrales facilitan la toma de decisiones en tiempo real al proporcionar recursos informáticos lejos de los centros de datos y la nube. En este artículo, ejecutamos varios puntos de referencia perimetrales en un SuperMicro IoT SuperServer SYS-210SE-31A, un servidor perimetral versátil de varios nodos. Claramente, los ingenieros tenían en mente la inferencia de borde durante su concepción, ya que esta caja nació para la inferencia.

Los servidores perimetrales facilitan la toma de decisiones en tiempo real al proporcionar recursos informáticos lejos de los centros de datos y la nube. En este artículo, ejecutamos varios puntos de referencia perimetrales en un SuperMicro IoT SuperServer SYS-210SE-31A, un servidor perimetral versátil de varios nodos. Claramente, los ingenieros tenían inferencia de borde en mente durante su concepción, ya que esta caja nació para inferencia.

SuperMicro IoT SuperServer SYS-210SE-31A Descripción general

Nuestra revision completa del SuperMicro IoT SuperServer SYS-210SE-31A revela su promesa no solo para 5G e IoT, sino también para comercio minorista e incluso almacenamiento si se combina con una tarjeta de almacenamiento PCIe y una NIC de alta velocidad.

SuperMicro IoT SuperServidor SYS-210SE-31A

La naturaleza de múltiples nodos de este servidor lo hace muy versátil. Se adapta a tres nodos de CPU, cada uno con lo siguiente:

  • Un procesador escalable Intel Xeon de tercera generación (“Ice Lake”) hasta 32C/64T y 205W, con opciones para chips de 270W con configuración especial.
  • Cuatro módulos de ventiladores.
  • Ocho ranuras DIMM; el techo de memoria es de 2 TB con DIMM 256DS de 3 GB.
  • Dos ranuras M.2 2280/22110 PCIe Gen4.
  • Dos PCIe Gen4 x16 de altura completa/longitud media y una PCIe Gen4 x16 de altura media/longitud media.
  • Un GbE para IMPI 2.0 y un dongle KVM.

Aquí puede ver los nodos extraídos, como mini servidores de montaje en rack propios.

Vista lateral extraída de los nodos Supermicro SuperEdge

Este es el interior de un nodo. Tenga en cuenta lo bien que encaja todo.

Nodo SuperMicro IoT SuperServer SYS-210SE-31A

La principal debilidad de este servidor es el almacenamiento, con almacenamiento en el nodo limitado a dos ranuras para unidades de arranque M.2 y sin bahías nativas de 2.5 o 3.5 pulgadas. Como se señaló, podría agregar almacenamiento PCIe con bastante facilidad. El almacenamiento en red también es una opción; su conectividad más allá de 1 GbE depende de las tarjetas de expansión.

Lo que destaca el enfoque de borde de este servidor es su capacidad para operar en ambientes de hasta 45 grados C, con períodos breves a 55 grados C, y su filtro de polvo disponible.

Inferencia perimetral: el caso de los servidores perimetrales

Nuestra característica, Edge Inferencing se está volviendo serio gracias al nuevo hardware, explica el estado de la informática perimetral. El movimiento de hoy hacia el borde habría parecido un movimiento hacia atrás en los días heredados, donde el enfoque jerárquico de "centro y radio" era devolver los datos a una ubicación central. La toma de decisiones en tiempo real impulsa el movimiento actual hacia el borde, brindando información y tiempos de respuesta más rápidos y menos dependencia de la conectividad de la red.

La inferencia perimetral se puede realizar en la nube, aunque por lo general solo para aplicaciones que no son sensibles al tiempo ni críticas. Por supuesto, la falta de conectividad de red significa que la nube es imposible.

Prueba de Edge en SuperMicro IoT SuperServer SYS-210SE-31A

Y ahora, en nuestras pruebas. La capacidad de una GPU para procesar datos impulsa la inferencia perimetral, y los servidores perimetrales generalmente se adhieren a tarjetas de perfil bajo de una sola ranura como NVIDIA A2 y la T4 más antigua pero popular. El SuperMicro IoT SuperServer SYS-210SE-31A que estamos evaluando tiene el T4. Abajo están las dos cartas, la T4 a la derecha y la A2 a la izquierda. La configuración de hardware de cada nodo incluía una CPU Intel Xeon Gold 6330 y 128 GB de RAM DDR4.

inferencia de borde nvidia a2 y t4

Y aquí está el T4 instalado en uno de los nodos SuperMicro.

SuperMicro IoT SuperServidor SYS-210SE-31A Nvidia T4

El perfil de 4 vatios del T70 significa que obtiene toda su potencia de la ranura PCIe. Su arquitectura Turing cuenta con núcleos de tensor para un rendimiento de precisión FP32, FP16, INT8 e INT4 mucho mejor que el que podría manejar una CPU. La NVIDIA A2 tiene un perfil ligeramente inferior de 40 W a 60 W, pero una arquitectura más nueva y eficiente. Vea las comparaciones entre las dos tarjetas en nuestro artículo de inferencia de borde donde los probamos en el Lenovo ThinkEdge SE450.

Estamos trabajando con el conjunto de pruebas comparativas MLPerf Inference: Edge, que compara el rendimiento de la inferencia para los modelos DL populares en varios escenarios perimetrales del mundo real. En nuestras pruebas, tenemos números para el modelo de clasificación de imágenes ResNet50 y el modelo BERT-Large NLP para tareas de preguntas y respuestas. Ambos se ejecutan en configuraciones sin conexión y SingleStream.

El escenario sin conexión evalúa el rendimiento de la inferencia en un "modo por lotes", cuando todos los datos de prueba están disponibles de inmediato y la latencia no es una consideración. En esta tarea, el script de inferencia puede procesar datos de prueba en cualquier orden y el objetivo es maximizar la cantidad de consultas por segundo (QPS=rendimiento). Cuanto mayor sea el número de QPS, mejor.

Por el contrario, la configuración de Single Stream procesa una muestra de prueba a la vez. Una vez que se realiza la inferencia en una sola entrada (en el caso de ResNet50, la entrada es una sola imagen), se mide la latencia y la siguiente muestra se pone a disposición de la herramienta de inferencia. El objetivo es minimizar la latencia para procesar cada consulta; cuanto menor sea la latencia, mejor. La latencia del percentil 90 del flujo de consultas se captura como la métrica de destino por razones de brevedad.

La imagen de abajo es de un Blog de NVIDIA post sobre MLPerf inference 0.5, que visualiza muy bien los escenarios. Puede leer más sobre los diversos escenarios en el original Documento de inferencia de MLPerf aquí.

Escenarios de Nvidia MLPerf

Probamos la carga de trabajo operando en dos nodos dentro del SuperMicro IoT SuperServer SYS-210SE-31A. El tercer nodo se configuró como repuesto.

Nodo 1 (NVIDIA T4) Nodo 3 (NVIDIA T4)
Desconectado RestNet50 5,587 muestras/s 5,492 muestras/s
BERT flujo único 6.8 ms (90th pct) 7.0 ms (90th pct)
BERT Desconectado 397 muestras/s 396 muestras/s

La NVIDIA T4 en general impresionó. El nodo 1 mostró un rendimiento marginalmente mejor. Dicho esto, la T4 es una tarjeta más antigua con un perfil de potencia más alto que la A2 más nueva. Vimos al probar el A2 en el ThinkEdge SE450 que también tiene una latencia más baja que el T4 en ciertos puntos, mientras usa mucha menos energía. Las aplicaciones y las consideraciones de potencia deben determinar la elección entre los dos. Sin embargo, por ahora, estamos satisfechos con la densidad que el chasis Supermicro puede proporcionar para este tipo de cargas de trabajo.

Reflexiones Finales:

La carrera hacia el perímetro trae avances rápidos en la computación perimetral. En ninguna parte es eso más evidente que en las GPU, específicamente en las opciones de bajo perfil y bajo consumo de energía como NVIDIA T4 y la nueva A2. Probamos el T4 en el SuperMicro IoT SuperServer SYS-210SE-31A, un servidor perimetral de tres nodos muy versátil.

El T4 mostró un desempeño excelente, que es aún más impresionante teniendo en cuenta su edad. Sin embargo, consume un poco más de potencia que el A2, así que seleccione sabiamente según su necesidad de inferencia de borde. Esperamos que la venerable GPU todavía tenga gran parte de su vida por delante, ya que las empresas orientadas al borde continúan optimizando la utilización de la GPU.

Además, el servidor Supermicro IoT está muy bien equipado para manejar estas tarjetas, lo que brinda un rendimiento de inferencia muy denso en el perímetro.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed