DeepSeek-R1 is een open-source AI-model dat kan concurreren met de beste modellen van OpenAI en bewijst dat innovatie niet alleen om computing draait, maar ook om slimme engineering.
In de wereld van kunstmatige intelligentie heeft een nieuwe speler de community stormenderhand veroverd. DeepSeek-R1, een open-source redeneermodel, haalt de krantenkoppen vanwege zijn baanbrekende prestaties. Dit model is uitgegroeid tot een serieuze concurrent, die qua capaciteit kan concurreren met OpenAI's vlaggenschip O1-modellenlijn, terwijl het aanzienlijk kosteneffectiever is. Nog indrukwekkender is dat het DeepSeek-team deze prestatie heeft bereikt met veel lagere en beperkte middelen, waarbij het zich hield aan strenge GPU-exportregels. Maar wat is DeepSeek precies en waarom is deze ontwikkeling zo'n monumentale stap voorwaarts in AI-onderzoek?
Wie is DeepSeek en wat is een redeneermodel?
DeepSeek is een ambitieus AI-onderzoekslab gevestigd in China dat snel erkenning heeft gekregen voor zijn innovatieve en toegankelijke benadering van kunstmatige intelligentie. Door zich te richten op open-sourceontwikkeling, hebben ze zichzelf gepositioneerd als een belangrijke speler in de AI-community, door hoogwaardige modellen te creëren die beschikbaar zijn voor een breder publiek. Hun nieuwste creatie, DeepSeek-R1, is een "redeneringsmodel", een type AI-model dat is ontworpen om uit te blinken in logische deductie, probleemoplossing en het begrijpen van complexe relaties die verder gaan dan elementaire patroonherkenning.
Redeneringsmodellen zoals DeepSeek-R1 verschillen van traditionele grote taalmodellen (LLM's) doordat ze een stapsgewijs denkproces simuleren. In plaats van simpelweg antwoorden te genereren op basis van patronen in data, splitst R1 complexe problemen op in kleinere, logische stappen voordat ze tot een oplossing komen. Hoewel deze aanpak iets langer kan duren tijdens het redeneren, stelt het het model in staat om aanzienlijk beter te presteren bij taken die diepgaand begrip vereisen, zoals wiskundig redeneren, programmeerondersteuning en besluitvorming.
Waarom DeepSeek-R1 een game-changer is
Wat DeepSeek-R1 echt onderscheidt, is dat het open source is. In een industrie waar toonaangevende AI-modellen vaak achter barrières opgesloten zitten, heeft DeepSeek hun model en een gedetailleerd onderzoeksrapport uitgebracht waarin hun exacte methodologieën worden uiteengezet. Deze gedurfde stap is een significante afwijking van de doorgaans gesloten aard van organisaties zoals OpenAI.
Deze openheid heeft een golf van experimenten in de AI-community ontketend. Ontwikkelaars en onderzoekers wereldwijd hosten DeepSeek-R1 om de mogelijkheden ervan te verkennen en te benchmarken. Er zijn met name initiatieven om de strategieën die in het artikel worden geschetst te repliceren, zoals Huggingface's Open-R1-project op GitHub, een work-in-progress, volledig open reproductie van DeepSeek-R1, inclusief de trainingscode. Deze inspanningen versterken de toegankelijkheid en het samenwerkingspotentieel van R1 verder, waardoor een breder publiek betrokken kan raken bij en kan voortbouwen op de innovaties.
De release van DeepSeek-R1 heeft verstrekkende gevolgen voor de AI-community en daarbuiten. Door hun model en onderzoek openlijk beschikbaar te stellen, heeft DeepSeek de drempels voor AI-innovatie verlaagd. Onafhankelijke onderzoekers, startups en hobbyisten hebben nu toegang tot een geavanceerd redeneermodel dat normaal gesproken immense financiële en computationele middelen zou vereisen om te ontwikkelen. De open-source aard van deze release heeft al geleid tot creatieve experimenten binnen de community; ontwikkelaars experimenteren met het combineren van de redeneermogelijkheden van DeepSeek-R1 met andere modellen om de prestaties van het model te verbeteren. Een opvallend voorbeeld is de integratie met Anthropic's Claude Sonnet 3.5, bekend om zijn sterke coderingsprestaties; in combinatie met de redeneermogelijkheden van DeepSeek's R1, kon het veel hoger scoren op benchmarks zoals Aidar Bench.
De Nvidia H800 begrijpen en de belangrijkste verschillen met de H100
Op het eerste gezicht lijkt de Nvidia H800 een iets afgeslankte versie van de H100, met het meest opvallende verschil in FP64-rekenprestaties. De H100 kan bogen op 34 TFLOP's FP64-prestaties vergeleken met slechts 1 TFLOP op de H800. Dit verschil is echter geen significante zorg voor de meeste AI-workloads. Moderne AI-modellen worden doorgaans getraind met behulp van formaten met een lagere precisie, zoals BF16 of FP16, geoptimaliseerd voor snelheid en efficiëntie. FP64-precisie is voornamelijk opgenomen in GPU's om compatibiliteit te behouden met oudere tools en wetenschappelijke computertoepassingen, waarbij berekeningen met dubbele precisie essentieel zijn. Voor AI-training vormen FP64-prestaties zelden een knelpunt.
De echte uitdaging van de H800 is de interconnectsnelheid. Het beschikt over een NVLink 4.0 interconnectbandbreedte van 400 GB/s, minder dan de helft van de 900 GB/s die de H100 biedt. Deze reductie van meer dan 50% in bandbreedte heeft aanzienlijke gevolgen voor multi-GPU-opstellingen, waarbij duizenden GPU's met elkaar worden verbonden om op schaal te trainen.
Nvidia H100 SXM | Nvidia H800 SXM | |
FP64 | 34 TFLOP's | 1 TFLOP |
FP64 Tensorkern | 67 TFLOP's | 1 TFLOP |
FP32 | 67 TFLOP's | 67 TFLOP's |
FP32 Tensorkern | 989 TFLOP's | 989 TFLOP's |
BF16 Tensorkern | 1,979 TFLOP's | 1,979 TFLOP's |
FP16 Tensorkern | 1,979 TFLOP's | 1,979 TFLOP's |
FP8 Tensorkern | 3,958 TFLOP's | 3,958 TFLOP's |
INT8 Tensorkern | 3,958 TOP's | 3,958 TOP's |
GPU-geheugen | 80 GB | 80 GB |
GPU-geheugenbandbreedte | 3.35 TB / s | 3.35 TB / s |
Maximaal thermisch ontwerpvermogen (TDP) | 700W | 700W |
NVIDIA NVLink 4.0 Interconnect-snelheid | 900GB / s | 400GB / s |
Waarom de snelheid van de verbinding van belang is: de impact op training
Bij grootschalige AI-training werken GPU's vaak samen met behulp van verschillende parallelismetechnieken. Enkele veelvoorkomende zijn dataparallellisme, modelparallellisme, pijplijnparallellisme en tensorparallellisme. Tensorparallellisme, waarbij grote tensoren worden verdeeld over meerdere GPU's voor berekening, is bijzonder gevoelig voor interconnectbandbreedte.
Maar wat is een tensor precies? Simpel gezegd zijn tensoren fundamentele datastructuren die in AI-modellen worden gebruikt om invoer, gewichten en tussenliggende berekeningen weer te geven.
Bij het trainen van grote AI-modellen kunnen deze tensoren zo groot worden dat ze niet in het geheugen van een enkele GPU passen. Om dit te verwerken, worden de tensoren verdeeld over meerdere GPU's, waarbij elke GPU een deel van de tensor verwerkt. Deze verdeling zorgt ervoor dat het model kan schalen over meerdere GPU's, waardoor het mogelijk is om veel grotere modellen te trainen dan anders mogelijk zou zijn.
Het splitsen van tensors vereist echter frequente communicatie tussen GPU's om berekeningen te synchroniseren en resultaten te delen. Dit is waar de interconnectsnelheid cruciaal wordt. De verminderde NVLink-bandbreedte in de H800 vertraagt de communicatie tussen GPU's in deze fase, wat leidt tot een verhoogde latentie en een verminderde algehele trainingsefficiëntie.
Deze bottleneck wordt nog duidelijker in scenario's met grote modellen met miljarden parameters, waarbij frequente communicatie tussen GPU's vereist is om tensorberekeningen te synchroniseren. Hoewel tensorparallellisme het meest gevoelig is voor de langzamere interconnect, is het niet het enige aspect dat wordt beïnvloed.
Het opschalen van AI-training op de H800 wordt steeds lastiger vanwege de tragere verbinding, wat niet ideaal is voor workloads die sterk afhankelijk zijn van efficiënte multi-GPU-communicatie.
DeepSeek-modeltraining
Gezien de uitdagingen bij het opschalen van trainingen op H800 GPU's, rijst de logische vraag: hoe heeft DeepSeek zo'n geavanceerd (SOTA) AI-model als R1 getraind? DeepSeek-R1 is een build op DeepSeek-v3, een 671B-parametermodel. Dit basis DeepSeek-v3-model onderging verdere Reinforcement Learning (RL)-training om redeneergedrag in het model te induceren.
Een belangrijk punt om op te merken is dat de hierboven genoemde getallen en technieken betrekking hebben op de DeepSeek-v3 onderzoekspaper. DeepSeek-R1 vereiste aanvullende trainingsbronnen, maar de exacte details zijn niet beschikbaar. DeepSeek-v3 is echter een SOTA-model en veel technieken die in het DeepSeek-v3-artikel worden genoemd, zijn waarschijnlijk overgenomen in de training van R1.
Bovendien worden de getallen alleen gerapporteerd voor de laatste succesvolle trainingsrun. Dit houdt geen rekening met experimenten op architectuur, algoritmen of data. Maar zelfs als we dat in ogenschouw nemen, heeft DeepSeek, volgens zijn eigen rapport, deze prestatie bereikt met aanzienlijk minder middelen dan Meta's Llama.
Nu we dat duidelijk hebben gemaakt, hoe heeft DeepSeek zo'n indrukwekkend model ontwikkeld? Zonder al te diep in details te duiken, wat buiten het bereik van dit artikel zou vallen, kunnen de technieken die worden gebruikt om DeepSeek v3 te trainen, worden gegroepeerd in twee hoofdcategorieën: het benutten van FP8 met lagere precisie voor training en het optimaliseren van inter-GPU-communicatie om dure bewerkingen te minimaliseren. De invoering van FP8 mixed-precision-training op schaal was een primeur die de omvang van gewichten verkleinde en de computationele doorvoer (TFLOP's) verhoogde, wat snellere en efficiëntere training mogelijk maakte. Aan de andere kant pakten communicatie-optimalisaties, zoals het minimaliseren van de behoefte aan tensorparallellisme en het verbeteren van cross-node-communicatie, de uitdagingen aan die werden veroorzaakt door de beperkte interconnectbandbreedte van H800 GPU's.
Historisch gezien is FP8 niet veel gebruikt voor training omdat gradiënten, cruciaal voor het updaten van modelgewichten tijdens backpropagation, vaak niet convergeren wanneer ze worden weergegeven in een dergelijk laagprecisieformaat. Het beperkte dynamische bereik en de precisie van FP8 maken het moeilijk om kleine gewichtsupdates nauwkeurig vast te leggen, wat leidt tot trainingsinstabiliteit. DeepSeek-v3 overwon deze uitdaging door een paar fijnmazige kwantificeringstechnieken te introduceren, zoals tile-wise en block-wise scaling, waardoor het model activaties en gewichten adaptief kon schalen om outliers beter te verwerken. Dit werd gecombineerd met verbeterde accumulatieprecisie door middel van FP32-promotie met een tussenliggende hogere precisie, wat training met FP8 mogelijk maakte.
Aan de communicatiekant werd het "DualPipe-algoritme" ontwikkeld om berekeningen en communicatie te laten overlappen, waardoor pijplijnbubbels aanzienlijk werden verminderd. Wat is een pijplijnbubbel? Bij pijplijnparallellisme wordt training verdeeld in fasen en verdeeld over GPU's. Bij gebruik van deze strategie kunnen er periodes van inactiviteit optreden wanneer sommige GPU's wachten tot gegevens uit eerdere fasen in de pijplijn of daaropvolgende fasen gereed zijn, waardoor de MFU van het trainingscluster wordt verminderd. DualPipe minimaliseert deze inefficiënties door berekeningen en communicatie te laten overlappen, latentie te verbergen en GPU's bezig te houden. Samen met DualPipe werd ook een aangepaste cross-node all-to-all communicatiekernel geïmplementeerd om NVLink- en InfiniBand-bandbreedtes volledig te benutten om efficiënte schaalbaarheid over knooppunten te garanderen.
Deze innovaties zijn zorgvuldig ontworpen om de beperkingen van de hardware te overwinnen en de efficiënte training van de DeepSeek-modellen mogelijk te maken.
Wat betekent dit voor andere AI-labs en de AI-gemeenschap als geheel?
De release van DeepSeek-R1 heeft geleid tot veel discussie en reflectie binnen de AI-community. Hoewel sommigen met de vinger hebben gewezen naar de timing en methoden van de release, is het essentieel om de bredere context van AI-modelontwikkeling te erkennen. Het trainen van SOTA-modellen is een tijdrovend proces en de modellen die we vandaag de dag zien, zijn waarschijnlijk al eind 2023 of begin 2024 met hun trainingscycli begonnen.
We mogen ook het evoluerende paradigma in de ontwikkeling van AI-modellen niet negeren. Historisch gezien was pre-training op enorme datasets essentieel vanwege het gebrek aan hoogwaardige synthetische data van andere modellen en omdat het schalen van pre-training aanzienlijke prestatieverbeteringen opleverde. Daarom vertrouwden vroege modellen sterk op geschraapte data en het schalen van pre-training om hun mogelijkheden te bereiken. De huidige generatie modellen, waaronder DeepSeek-R1, heeft echter aanzienlijk geprofiteerd van synthetische data in verschillende stadia van de training. De o1-familie van modellen van OpenAI is waarschijnlijk ook gebaseerd op eerdere GPT 4o-modellen en is geëvolueerd van een enorm 1.8 biljoen parameter GPT 4-model naar een efficiënter Turbo-model en, ten slotte, waarschijnlijk veel kleinere 4o-modellen die we vandaag de dag gebruiken.
Het is ook vermeldenswaard dat DeepSeek-R1 nog maar het begin is. Andere organisaties, zoals Anthropic, Meta, Mistral en Cohere, werken vrijwel zeker aan soortgelijke redeneringsmodellen. De release van R1 luidt het begin in van een nieuwe golf van AI-modellen die de grenzen van redeneren, probleemoplossing en taakspecifieke prestaties zullen blijven verleggen. De toenemende beschikbaarheid van GPU-vermogen versnelt deze trend verder, waardoor labs meer synthetische data kunnen genereren voor fine-tuning en reinforcement learning (RL). Dit stelt modellen op hun beurt in staat om uit te blinken in complexe taken zoals codegeneratie en logisch redeneren.
DeepSeek's open-source-initiatief zal een diepgaande impact hebben op de AI-community. Het openbaar maken van hun model en methodologieën heeft innovatie binnen de open-sourcecommunity aangewakkerd en andere labs geïnspireerd om soortgelijke benaderingen te omarmen. DeepSeek's erkenning van de waarde van open-source-samenwerking bouwt voort op het precedent dat is geschapen door organisaties als Meta, Alibaba's Qwen-team en anderen. Zonder deze eerdere bijdragen zou de AI-community waarschijnlijk veel minder geavanceerd zijn dan ze nu is.
Conclusie
De open-source release van DeepSeek-R1 is een stap in de goede richting. Hoewel closed-source modellen hun nut hebben, zorgt de open-source beweging ervoor dat innovatie toegankelijk is voor een breder publiek, wat een inclusievere en competitievere omgeving bevordert.
AI is een iteratief proces en de open-sourcecommunity floreert op deze iteratieve aard, en versnelt de vooruitgang op ongekende manieren. Velen geloven stellig dat open source de enige weg vooruit is, en dat geen enkele entiteit in de toekomst eigenaar is van AI of mogelijk AGI (Artificial General Intelligence). Een van China's toonaangevende AI-labs deelt deze filosofie, en ondersteunt en draagt openlijk bij aan de open-sourcebeweging, wat alleen maar het belang ervan bevestigt.
Uiteindelijk is DeepSeek-R1 meer dan alleen een model; het is een oproep tot actie. Het inspireert onderzoekers, ontwikkelaars en enthousiastelingen om de grenzen van het mogelijke te verleggen, te innoveren met de middelen die ze hebben en bij te dragen aan een snel evoluerend veld. Naarmate het AI-landschap blijft groeien, zal de iteratieve en collaboratieve geest van de open-sourcecommunity een drijvende kracht blijven, die de toekomst van kunstmatige intelligentie op ongekende manieren vormgeeft.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed