Technologie beweegt in cycli, en geen enkele cyclus is op dit moment duidelijker dan de nadruk op AI aan de rand. We vinden met name een enorme swing-to-edge-inferentie. NVIDIA maakt een groot deel uit van deze push en wil de acceptatie van hun GPU's buiten het datacenter stimuleren. Toch is het een feit dat bedrijven sneller meer beslissingen moeten nemen, dus de AI-infrastructuur moet dichter bij de data komen.
Technologie beweegt in cycli, en geen enkele cyclus is op dit moment duidelijker dan de nadruk op AI aan de rand. We vinden met name een enorme swing-to-edge-inferentie. NVIDIA maakt een groot deel uit van deze push en wil de acceptatie van hun GPU's buiten het datacenter stimuleren. Toch is het een feit dat bedrijven sneller meer beslissingen moeten nemen, dus de AI-infrastructuur moet dichter bij de data komen.
Herinner je je Hub-and-Spoke nog?
Vroeger hadden we het over de edge op het gebied van datacreatie en hoe je die data snel en efficiënt terug kunt krijgen naar het datacenter door gebruik te maken van de traditionele hub-and-spoke-methodologie. Dat ontwerp maakte plaats voor het hiërarchische ontwerp, gebaseerd op kern, toegang en distributie met veel redundantie en hardware en als enige doel om gegevens terug te krijgen naar het primaire datacenter. Al die gegevens die aan de rand werden verzameld om terug naar het hoofddatacenter te worden getransporteerd voor verwerking en vervolgens teruggestuurd naar de randapparaten, bleken inefficiënt, kostbaar en tijdrovend.
Dus misschien was dat hub-and-spoke-ontwerp toch niet zo slecht. Met de drang om meer intelligentie aan de edge te leveren met AI en de verstoring van cloud computing, lijkt het erop dat ontwerp een aanzienlijke invloed heeft op het netwerkontwerp, edge-implementaties en waar gegevens worden verwerkt. Sterker nog, dit jaar HPE Ontdekken conferentie had een slogan die in elk jaar voorafgaand aan de cloudgekte heel bekend zou zijn geweest als je gewoon de kern voor de cloud had verwisseld: "The Edge-to-Cloud Conference."
Springen op het randmomentum
HPE was niet de enige leverancier die het belang van edge-to-cloud computing voor de industrie inzag, waarbij Dell Technologies een vergelijkbaar verhaal vertelde tijdens het Dell Technologies World-evenement. IBM, Lenovo, NetApp en Supermicro hebben zich ook uitgesproken over de noodzaak om meer aan de rand te doen en tegelijkertijd cloudresources effectiever te gebruiken.
Wat drijft de laserfocus van edge computing? Klanten genereren datavolumes aan de rand die zijn verzameld via sensoren, IoT-apparaten en gegevensverzamelingen van autonome voertuigen. Nabijheid van gegevens bij de bron levert zakelijke voordelen op, waaronder snellere inzichten met nauwkeurige voorspellingen en snellere responstijden met een beter gebruik van bandbreedte. AI-inferentie aan de rand (bruikbare intelligentie met behulp van AI-technieken) verbetert de prestaties, verkort de tijd (inferentietijd) en vermindert de afhankelijkheid van netwerkconnectiviteit, wat uiteindelijk de bedrijfsresultaten verbetert.
Waarom doet u geen edge-inferentie in de cloud?
Waarom kan edge-inferentie niet in de cloud worden gedaan? Het kan, en voor applicaties die niet tijdgevoelig zijn en als niet-kritiek worden beschouwd, kan cloud-AI-inferentie de oplossing zijn. Realtime inferentie heeft echter veel technische uitdagingen, waarvan latentie de belangrijkste is. Verder, met de voortdurende groei van IoT-apparaten en bijbehorende applicaties die verwerking aan de rand vereisen, is het misschien niet haalbaar om een snelle cloudverbinding beschikbaar te hebben voor alle apparaten.
Edge computing brengt zijn eigen uitdagingen met zich mee, waaronder ondersteuning op locatie, fysieke en applicatiebeveiliging en beperkte ruimte die leidt tot beperkte opslag. De huidige edge-servers bieden voldoende rekenkracht voor traditionele edge-workloads, waarbij GPU's meer kracht toevoegen zonder meer complexiteit.
Groei van Edge-opties
Interessant is dat de kleinere systeemaanbieders voornamelijk de edge-infrastructuurmarkt hebben gedomineerd. Supermicro praat bijvoorbeeld al jaren over 5G en datacenters op telefoonpalen, en Advantech en vele andere aanbieders van gespecialiseerde servers doen hetzelfde. Maar naarmate de GPU's zijn verbeterd en, nog belangrijker, de software om ze te ondersteunen, wordt het hele idee van AI aan de rand reëler.
We hebben deze overgang onlangs op een aantal verschillende manieren in ons lab gezien. Ten eerste brengen nieuwe serverontwerpen NVIDIA's single-slot, low-power GPU's zoals de A2 en de immer populaire T4. Onlangs hebben zowel Lenovo als Supermicro ons servers gestuurd om te evalueren waarin deze GPU's zijn geïntegreerd, en de prestaties zijn indrukwekkend.
SuperMicro IoT SuperServer SYS-210SE-31A met NVIDIA T4
Ten tweede leggen infrastructuurproviders veel nadruk op het leveren van edge-oplossingen met meetgegevens die rechtstreeks verband houden met de basisprincipes van datacenters, zoals lage latentie en beveiliging. We hebben onlangs enkele van deze use-cases bekeken met de Dell PowerVault ME5. Hoewel gepitcht als een MKB-opslagoplossing, wekt de ME5 veel belangstelling voor edge use-cases vanwege de kosten/prestatieverhouding.
Maar uiteindelijk is het verhaal over edge-inferentie vrij eenvoudig. Het komt neer op het vermogen van de GPU om gegevens te verwerken, vaak on the fly. We hebben gewerkt aan het uitbreiden van onze tests om een beter idee te krijgen van hoe deze nieuwe servers en GPU's kunnen werken voor de rol van edge-inferentie. We hebben met name gekeken naar populaire edge-workloads, zoals modellen voor beeldherkenning en natuurlijke taalverwerking.
Achtergrond testen
We werken met de MLPerf Inference: Edge benchmark suite. Deze set tools vergelijkt de inferentieprestaties voor populaire DL-modellen in verschillende real-world edge-scenario's. Bij onze tests hebben we cijfers voor het ResNet50-beeldclassificatiemodel en het BERT-Large NLP-model voor vraag-antwoordtaken. Beide worden uitgevoerd in offline- en SingleStream-configuraties.
Het offlinescenario evalueert de gevolgtrekkingsprestaties in een "batchmodus", wanneer alle testgegevens onmiddellijk beschikbaar zijn en latentie geen overweging is. Bij deze taak kan het inferentiescript testgegevens in willekeurige volgorde verwerken en het doel is om het aantal query's per seconde te maximaliseren (QPS=throughput). Hoe hoger het QPS-nummer, hoe beter.
De Single Stream-configuratie daarentegen verwerkt één testvoorbeeld tegelijk. Zodra de inferentie is uitgevoerd op een enkele invoer (in het geval van ResNet50 is de invoer een enkele afbeelding), wordt de latentie gemeten en wordt het volgende monster beschikbaar gesteld aan de inferentietool. Het doel is om de latentie voor het verwerken van elke query te minimaliseren; hoe lager de latentie, hoe beter. De latentie van het 90e percentiel van de querystroom wordt kortheidshalve vastgelegd als doelstatistiek.
Onderstaande afbeelding is van een NVIDIA-blog post over MLPerf-inferentie 0.5, die de scenario's heel goed visualiseert. In het origineel lees je meer over de verschillende scenario's MLPerf Inferentiedocument hier.
Edge-inferentie - Lenovo ThinkEdge SE450
Na beoordeling van de Think Edge SE450, werkten we samen met Lenovo om MLPerf uit te voeren op de NVIDIA A2 en T4 in het systeem. Het doel was om een idee te krijgen van wat de SE450 zou kunnen doen met slechts een enkele GPU. Opgemerkt moet worden dat het systeem maximaal vier van de energiezuinige NVIDIA GPU's kan ondersteunen, en het is logisch om deze cijfers te nemen en ze te extrapoleren naar het aantal gewenste kaarten.
Voor deze tests werkten we rechtstreeks samen met Lenovo en testten we de verschillende configuraties in ons lab met zowel de NVIDIA A2 als de T4. Met MLPerf hebben leveranciers een specifiek testharnas dat is afgestemd op hun specifieke platform. We hebben Lenovo's testharnas gebruikt voor deze edge-inferentie-benchmarking om een idee te krijgen van waar deze populaire GPU's uitkomen.
De resultaten van de testen voor de A2 en T4 in de SE450 in ons lab:
criterium | NVIDIA A2 (40-60 W TDP) | NVIDIA T4 (70 W TDP) |
---|---|---|
ResNet50 SingleStream | 0.714ms latentie | 0.867 latentie |
ResNet50 offline | 3,032.18 monsters/s | 5,576.01 monsters/s |
BERT SingleStream | 8.986ms latentie | 8.527ms latentie |
BERT offline | 244.213 monsters/s | 392.285 monsters/s |
Interessant is dat de NVIDIA T4 het overal heel goed deed, wat voor sommigen verrassend is, alleen al vanwege zijn leeftijd. Het prestatieprofiel van de T4 is een vrij duidelijke reden waarom de T4 nog steeds razend populair is. Dat gezegd hebbende, heeft de A2 een aanzienlijk latentievoordeel ten opzichte van de T4 in real-time beelddeductie.
Uiteindelijk wordt de beslissing over GPU afgestemd op de specifieke taak die voorhanden is. De oudere NVIDIA T4 verbruikt meer stroom (70 W) en gebruikt een PCIe Gen3 x16-sleuf, terwijl de nieuwere A2 is ontworpen om met minder stroom te werken (40-60 W) en een PCIe Gen4 x8-sleuf gebruikt. Naarmate organisaties beter begrijpen wat ze van hun randinfrastructuur vragen, zullen de resultaten betekenisvoller zijn en zullen edge-inferentieprojecten meer kans van slagen hebben.
Conclusie
Leveranciers haasten zich om kleinere, snellere en robuustere servers voor de edge-markt te ontwikkelen. Organisaties, van detailhandel tot fabrieken tot gezondheidszorg, schreeuwen om sneller inzicht te krijgen in de gegevens die aan de bron worden verzameld. Het verbeteren van de inferentietijd, het verminderen van latentie, met opties om de prestaties te verbeteren en het gebruik van opkomende technologie zal snel de winnaars en verliezers scheiden.
De edge-markt staat niet stil nu organisaties nieuwe manieren vinden om gebruik te maken van de inzichten die zijn verkregen uit het steeds groter wordende aantal IoT-apparaten. Ons team ziet een grote kans voor diegenen die snel kunnen bewegen in hun respectieve industrieën om te profiteren van AI aan de rand, waaronder deze use case voor edge-inferentie.
We verwachten dat de prominente IT-infrastructuurspelers komend jaar zullen reageren met innovatieve oplossingen voor deze specifieke use case. Ook, en misschien nog belangrijker, verwachten we veel vooruitgang in software om het gebruik van GPU's in deze edge use-cases te helpen democratiseren. Om deze technologie transformatief te laten zijn, moet ze eenvoudiger te implementeren zijn dan nu het geval is. Gezien het werk dat we zien, niet alleen van NVIDIA, maar ook van softwarebedrijven zoals Vantiq, Viso.ai, en vele anderen, zijn we optimistisch dat meer organisaties deze technologie tot leven kunnen brengen.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS Feed