Accueil Entreprise L'inférence Edge devient sérieuse grâce au nouveau matériel

L'inférence Edge devient sérieuse grâce au nouveau matériel

by Brian Beeler

La technologie évolue par cycles, et aucun cycle n'est plus évident en ce moment que l'accent mis sur l'IA à la périphérie. En particulier, nous constatons un basculement massif vers l'inférence des bords. NVIDIA est une grande partie de cette poussée, voulant favoriser l'adoption de leurs GPU en dehors du centre de données. Pourtant, le fait est que les entreprises doivent prendre plus de décisions plus rapidement, de sorte que l'infrastructure d'IA doit se rapprocher des données.

La technologie évolue par cycles, et aucun cycle n'est plus évident en ce moment que l'accent mis sur l'IA à la périphérie. En particulier, nous constatons un basculement massif vers l'inférence des bords. NVIDIA est une grande partie de cette poussée, voulant favoriser l'adoption de leurs GPU en dehors du centre de données. Pourtant, le fait est que les entreprises doivent prendre plus de décisions plus rapidement, de sorte que l'infrastructure d'IA doit se rapprocher des données.

inférence de bord gpus a2 avec t4

Vous souvenez-vous de Hub and Spoke ?

Autrefois, nous parlions de l'avantage en termes de création de données et de la manière de renvoyer ces données au centre de données rapidement et efficacement en utilisant la méthodologie traditionnelle en étoile. Cette conception a cédé la place à la conception hiérarchique, basée sur le noyau, l'accès et la distribution avec beaucoup de redondance et de matériel et dans le seul but de renvoyer les données au centre de données principal. Toutes ces données collectées à la périphérie juste pour être transportées vers le centre de données principal pour traitement, puis renvoyées vers les appareils périphériques se sont révélées inefficaces, coûteuses et chronophages.

Alors peut-être que cette conception en étoile n'était pas si mauvaise après tout. Avec la volonté de fournir plus d'intelligence à la périphérie avec l'IA et la perturbation du cloud computing, il semble que la conception ait un impact significatif sur la conception du réseau, les déploiements en périphérie et l'endroit où les données sont traitées. En fait, cette année HPE Découvrez La conférence avait un slogan qui aurait été très familier n'importe quelle année avant l'engouement pour le cloud si vous veniez de remplacer le cœur par le cloud, "La conférence Edge-to-Cloud".

Sauter sur l'élan du bord

HPE n'était pas le seul fournisseur à réaliser l'importance de l'informatique de la périphérie au cloud pour l'industrie, Dell Technologies livrant une histoire similaire lors de l'événement Dell Technologies World. IBM, Lenovo, NetApp et Supermicro ont également insisté sur la nécessité d'en faire plus à la périphérie tout en utilisant plus efficacement les ressources cloud.

Qu'est-ce qui motive la focalisation laser de l'informatique de pointe ? Les clients génèrent des volumes de données à la périphérie collectées à partir de capteurs, d'appareils IoT et de collectes de données de véhicules autonomes. La proximité des données à la source offrira des avantages commerciaux, notamment des informations plus rapides avec des prédictions précises et des temps de réponse plus rapides avec une meilleure utilisation de la bande passante. L'inférence de l'IA à la périphérie (renseignement exploitable à l'aide de techniques d'IA) améliore les performances, réduit le temps (temps d'inférence) et réduit la dépendance à la connectivité réseau, améliorant ainsi les résultats de l'entreprise.

Pourquoi ne pas faire d'inférence Edge dans le cloud ?

Pourquoi l'inférence de périphérie ne peut-elle pas être effectuée dans le cloud ? C'est possible, et pour les applications qui ne sont pas urgentes et jugées non critiques, l'inférence de l'IA dans le cloud pourrait être la solution. L'inférence en temps réel, cependant, présente de nombreux défis techniques, la latence étant le principal d'entre eux. De plus, avec la croissance continue des appareils IoT et des applications associées nécessitant un traitement à la périphérie, il peut ne pas être possible d'avoir une connexion cloud à haut débit disponible pour tous les appareils.

L'informatique de périphérie apporte ses propres défis, notamment l'assistance sur site, la sécurité physique et des applications, et un espace limité entraînant un stockage limité. Les serveurs de périphérie d'aujourd'hui offrent une puissance de calcul adéquate pour les charges de travail de périphérie traditionnelles, les GPU ajoutant plus de puissance sans plus de complexité.

Croissance des options Edge

Fait intéressant, les petits fournisseurs de systèmes ont principalement dominé le marché des infrastructures de pointe. Supermicro, par exemple, parle de 5G et de centres de données sur des poteaux téléphoniques depuis des années, et Advantech et de nombreux autres fournisseurs de serveurs spécialisés font de même. Mais à mesure que les GPU se sont améliorés et, plus important encore, le logiciel pour les prendre en charge, toute la notion d'IA à la périphérie devient plus réelle.

carte graphique nvidia a2

Nous avons récemment observé cette transition dans notre laboratoire de différentes manières. Tout d'abord, les nouvelles conceptions de serveur apportent les GPU NVIDIA à slot unique et à faible consommation d'énergie comme l'A2 et le très populaire T4. Récemment, Lenovo et Supermicro nous ont envoyé des serveurs à évaluer qui ont intégré ces GPU, et les performances ont été impressionnantes.

inférence de bord supermicroSuperMicro IoT SuperServeur SYS-210SE-31A avec NVIDIA T4

Deuxièmement, les fournisseurs d'infrastructure mettent l'accent sur la fourniture de solutions de pointe avec des mesures directement liées aux éléments de base du centre de données, comme la faible latence et la sécurité. Nous avons récemment examiné certains de ces cas d'utilisation avec le Dell PowerVault ME5. Bien que présenté comme une solution de stockage SMB, le ME5 suscite beaucoup d'intérêt pour les cas d'utilisation en périphérie en raison de son rapport coût/performance.

En fin de compte, cependant, l'histoire de l'inférence des bords est assez simple. Cela se résume à la capacité du GPU à traiter les données, souvent à la volée. Nous avons travaillé à étendre nos tests pour avoir une meilleure idée de la façon dont ces nouveaux serveurs et GPU peuvent fonctionner pour le rôle d'inférence de périphérie. Plus précisément, nous avons examiné les charges de travail de pointe populaires telles que la reconnaissance d'images et les modèles de traitement du langage naturel.

carte graphique nvidia t4

Contexte de test

Nous travaillons avec la suite de benchmarks MLPerf Inference: Edge. Cet ensemble d'outils compare les performances d'inférence pour les modèles DL populaires dans divers scénarios de périphérie du monde réel. Lors de nos tests, nous avons des chiffres pour le modèle de classification d'images ResNet50 et le modèle BERT-Large NLP pour les tâches de questions-réponses. Les deux sont exécutés dans des configurations hors ligne et SingleStream.

Le scénario hors ligne évalue les performances d'inférence en « mode batch », lorsque toutes les données de test sont immédiatement disponibles et que la latence n'est pas prise en compte. Dans cette tâche, le script d'inférence peut traiter les données de test dans n'importe quel ordre, et l'objectif est de maximiser le nombre de requêtes par seconde (RPS=débit). Plus le nombre de QPS est élevé, mieux c'est.

La configuration à flux unique, en revanche, traite un échantillon de test à la fois. Une fois l'inférence effectuée sur une seule entrée (dans le cas de ResNet50, l'entrée est une image unique), la latence est mesurée et l'échantillon suivant est mis à la disposition de l'outil d'inférence. L'objectif est de minimiser la latence pour le traitement de chaque requête ; plus la latence est faible, mieux c'est. La latence au 90e centile du flux de requête est capturée en tant que métrique cible pour la brièveté.

L'image ci-dessous provient d'un Blog NVIDIA post sur l'inférence MLPerf 0.5, qui visualise très bien les scénarios. Vous pouvez en savoir plus sur les différents scénarios dans l'original Document d'inférence MLPerf ici.

Inférence Edge - Lenovo ThinkEdge SE450

Après avoir examiné le Think Edge SE450, nous avons travaillé avec Lenovo pour exécuter MLPerf sur NVIDIA A2 et T4 dans le système. L'objectif était d'avoir une idée de ce que le SE450 pouvait faire avec un seul GPU. Il convient de noter que le système peut prendre en charge jusqu'à quatre des GPU NVIDIA à faible consommation, et il est logique de prendre ces chiffres et de les extrapoler au nombre de cartes souhaitées.

Lenovo ThinkEdge SE450 - Ports avant

Pour ces tests, nous avons travaillé directement avec Lenovo, testant les différentes configurations dans notre laboratoire avec les NVIDIA A2 et T4. Avec MLPerf, les fournisseurs disposent d'un harnais de test spécifique qui a été réglé pour leur plate-forme particulière. Nous avons utilisé le harnais de test de Lenovo pour cette analyse comparative d'inférence de pointe afin d'avoir une idée de l'endroit où ces GPU populaires sortent.

Les résultats des tests pour l'A2 et le T4 dans le SE450 dans notre laboratoire :

référence NVIDIA A2 (TDP 40-60W) NVIDIA T4 (TDP 70 W)
Flux unique ResNet50 Latence de 0.714 ms 0.867 latence
ResNet50 hors ligne 3,032.18 XNUMX échantillons/s 5,576.01 XNUMX échantillons/s
BERT flux unique Latence de 8.986 ms Latence de 8.527 ms
BERT hors ligne 244.213 XNUMX échantillons/s 392.285 XNUMX échantillons/s

Fait intéressant, le NVIDIA T4 a très bien fonctionné tout au long, ce qui est surprenant pour certains uniquement en raison de son âge. Le profil de performance du T4 est une raison assez apparente pour laquelle le T4 est toujours très populaire. Cela dit, l'A2 a un avantage de latence significatif sur le T4 dans l'inférence d'image en temps réel.

En fin de compte, la décision sur le GPU est adaptée à la tâche spécifique à accomplir. L'ancien NVIDIA T4 consomme plus d'énergie (70 W) et utilise un emplacement PCIe Gen3 x16 tandis que le plus récent A2 est conçu pour fonctionner avec moins d'énergie (40-60 W) et utilise un emplacement PCIe Gen4 x8. Au fur et à mesure que les organisations comprennent mieux ce qu'elles demandent à leur infrastructure en périphérie, les résultats seront plus significatifs et les projets d'inférence en périphérie auront plus de chances de réussir.

Réflexions finales

Les fournisseurs se précipitent pour développer des serveurs plus petits, plus rapides et plus robustes pour le marché de la périphérie. Les organisations, de la vente au détail aux usines en passant par les soins de santé, réclament d'obtenir un aperçu plus rapide des données collectées à la source. L'amélioration du temps d'inférence, la réduction de la latence, les options d'amélioration des performances et l'utilisation des technologies émergentes sépareront rapidement les gagnants des perdants.

inférence de bord nvidia a2 et t4

Le marché de la périphérie n'est pas en reste alors que les organisations trouvent de nouvelles façons d'utiliser les informations recueillies à partir du nombre sans cesse croissant d'appareils IoT. Notre équipe voit une opportunité majeure pour ceux qui peuvent évoluer rapidement dans leurs secteurs respectifs de tirer parti de l'IA en périphérie, ce qui inclut ce cas d'utilisation d'inférence en périphérie.

Nous nous attendons à ce que les principaux acteurs de l'infrastructure informatique répondent avec des solutions innovantes pour ce cas d'utilisation spécifique au cours de l'année prochaine. De plus, et peut-être plus important encore, nous nous attendons à voir de nombreuses avancées logicielles pour aider à démocratiser l'utilisation des GPU dans ces cas d'utilisation en périphérie. Pour que cette technologie soit transformatrice, elle doit être plus facile à déployer qu'elle ne l'est aujourd'hui. Compte tenu du travail que nous constatons non seulement de NVIDIA, mais aussi d'éditeurs de logiciels comme Vantique, Viso.ai, et bien d'autres, nous sommes convaincus que davantage d'organisations pourront donner vie à cette technologie.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | Flux RSS