Casa Impresa Come DeepSeek-R1 ha superato i limiti hardware per offrire innovazioni nell'intelligenza artificiale

Come DeepSeek-R1 ha superato i limiti hardware per offrire innovazioni nell'intelligenza artificiale

by Divyansh Jain

DeepSeek-R1 è un modello di intelligenza artificiale open source che rivaleggia con i migliori modelli di OpenAI, dimostrando che l'innovazione non riguarda solo l'elaborazione dei dati, ma anche l'ingegneria intelligente.

Nel mondo dell'intelligenza artificiale, un nuovo player ha preso d'assalto la comunità. DeepSeek-R1, un modello di ragionamento open source, sta facendo notizia per le sue prestazioni rivoluzionarie. Questo modello è emerso come un serio concorrente, rivaleggiando con la linea di modelli O1 di punta di OpenAI in termini di capacità, pur essendo significativamente più conveniente. Ancora più impressionante è che il team di DeepSeek abbia raggiunto questa impresa con risorse molto più basse e limitate, aderendo alle rigide normative sull'esportazione di GPU. Ma cos'è esattamente DeepSeek e perché questo sviluppo è un passo avanti così monumentale nella ricerca sull'intelligenza artificiale?

Chi è DeepSeek e cos'è un modello di ragionamento?

DeepSeek è un ambizioso laboratorio di ricerca sull'intelligenza artificiale con sede in Cina che ha rapidamente ottenuto riconoscimenti per il suo approccio innovativo e accessibile all'intelligenza artificiale. Concentrandosi sullo sviluppo open source, si è posizionato come un attore chiave nella comunità dell'intelligenza artificiale, creando modelli ad alte prestazioni disponibili per un pubblico più ampio. La sua ultima creazione, DeepSeek-R1, è un "modello di ragionamento", un tipo di modello di intelligenza artificiale progettato per eccellere nella deduzione logica, nella risoluzione dei problemi e nella comprensione di relazioni complesse oltre al riconoscimento di modelli di base.

I modelli di ragionamento come DeepSeek-R1 differiscono dai tradizionali modelli di linguaggio di grandi dimensioni (LLM) perché simulano un processo di pensiero passo dopo passo. Invece di generare semplicemente risposte basate su modelli nei dati, R1 scompone i problemi complessi in passaggi logici più piccoli prima di arrivare a una soluzione. Sebbene questo approccio possa richiedere un po' più di tempo durante l'inferenza, consente al modello di funzionare in modo significativamente migliore su attività che richiedono una comprensione approfondita, come ragionamento matematico, assistenza alla programmazione e processo decisionale.

Perché DeepSeek-R1 è un punto di svolta

Ciò che distingue davvero DeepSeek-R1 è il fatto che è open source. In un settore in cui i principali modelli di IA sono spesso bloccati dietro barriere, DeepSeek ha rilasciato il suo modello e un documento di ricerca dettagliato che delinea le sue esatte metodologie. Questa mossa audace è un significativo allontanamento dalla natura tipicamente chiusa di organizzazioni come OpenAI.

Questa apertura ha innescato un'ondata di sperimentazione nella comunità AI. Sviluppatori e ricercatori in tutto il mondo stanno ospitando DeepSeek-R1 per esplorare e confrontare le sue capacità. In particolare, ci sono iniziative per replicare le strategie delineate nel documento, come Progetto Open-R1 di Huggingface su GitHub, una riproduzione completamente aperta e in fase di sviluppo di DeepSeek-R1, incluso il codice di training. Questi sforzi amplificano ulteriormente l'accessibilità e il potenziale collaborativo di R1, consentendo a un pubblico più ampio di interagire e di costruire sulle sue innovazioni.

Il rilascio di DeepSeek-R1 ha implicazioni di vasta portata per la comunità AI e oltre. Rendendo apertamente disponibili il loro modello e la loro ricerca, DeepSeek ha abbassato le barriere all'innovazione AI. Ricercatori indipendenti, startup e hobbisti hanno ora accesso a un modello di ragionamento all'avanguardia che in genere richiederebbe immense risorse finanziarie e computazionali per essere sviluppato. La natura open source di questo rilascio ha già innescato sperimentazioni creative all'interno della comunità; gli sviluppatori stanno sperimentando con combinando le capacità di ragionamento di DeepSeek-R1 con altri modelli per migliorare le prestazioni del modello. Un esempio notevole è l'integrazione con Claude Sonnet 3.5 di Anthropic, noto per le sue elevate prestazioni di codifica; quando abbinato alle capacità di ragionamento di R1 di DeepSeek, è stato in grado di ottenere un punteggio molto più alto su parametri di riferimento come Aidar Bench.

Comprendere la Nvidia H800 e le principali differenze rispetto alla H100

A prima vista, la Nvidia H800 sembra essere una versione leggermente ridotta della H100, con la differenza più evidente nelle prestazioni di elaborazione FP64. La H100 vanta 34 TFLOP di prestazioni FP64 rispetto a solo 1 TFLOP sulla H800. Tuttavia, questa differenza non è una preoccupazione significativa per la maggior parte dei carichi di lavoro AI. I moderni modelli AI sono in genere addestrati utilizzando formati a precisione inferiore come BF16 o FP16, ottimizzati per velocità ed efficienza. La precisione FP64 è principalmente inclusa nelle GPU per mantenere la compatibilità con strumenti legacy e applicazioni di elaborazione scientifica, in cui i calcoli a doppia precisione sono essenziali. Per l'addestramento AI, le prestazioni FP64 raramente rappresentano un collo di bottiglia.

La vera sfida dell'H800 è la sua velocità di interconnessione. Presenta una larghezza di banda di interconnessione NVLink 4.0 di 400 GB/s, meno della metà dei 900 GB/s offerti dall'H100. Questa riduzione di oltre il 50% della larghezza di banda ha implicazioni significative per le configurazioni multi-GPU, in cui migliaia di GPU sono interconnesse per l'addestramento su larga scala.

Scheda grafica Nvidia H100 SXM Scheda grafica Nvidia H800 SXM
FP64 34 TFLOPs 1 TFLOP
Nucleo tensoriale FP64 67 TFLOPs 1 TFLOP
FP32 67 TFLOPs 67 TFLOPs
Nucleo tensoriale FP32 989 TFLOP 989 TFLOP
Nucleo tensoriale BF16 1,979  TFLOP 1,979  TFLOP
Nucleo tensoriale FP16 1,979  TFLOP 1,979  TFLOP
Nucleo tensoriale FP8 3,958 TFLOP 3,958 TFLOP
Nucleo Tensoriale INT8 3,958 TOP 3,958 TOP
Memoria GPU 80 GB 80 GB
Larghezza di banda della memoria della GPU 3.35 TB / s 3.35 TB / s
Potenza massima di progettazione termica (TDP) 700W 700W
Velocità di interconnessione NVIDIA NVLink 4.0 900GB / s 400GB / s

Perché la velocità di interconnessione è importante: l'impatto sulla formazione

Nell'addestramento AI su larga scala, le GPU spesso lavorano insieme utilizzando varie tecniche di parallelismo. Alcune comuni sono il parallelismo dei dati, il parallelismo del modello, il parallelismo della pipeline e il parallelismo del tensore. Il parallelismo del tensore, in cui i tensori di grandi dimensioni sono suddivisi su più GPU per il calcolo, è particolarmente sensibile alla larghezza di banda di interconnessione. 

Ma cos'è esattamente un tensore? In parole povere, i tensori sono strutture dati fondamentali utilizzate nei modelli di intelligenza artificiale per rappresentare input, pesi e calcoli intermedi.

Quando si addestrano grandi modelli di IA, questi tensori possono diventare così massicci da non poter essere inseriti nella memoria di una singola GPU. Per gestire questa situazione, i tensori vengono suddivisi su più GPU, con ogni GPU che elabora una porzione del tensore. Questa divisione consente al modello di scalare su più GPU, consentendo l'addestramento di modelli molto più grandi di quanto sarebbe altrimenti possibile.

Tuttavia, la suddivisione dei tensori richiede una comunicazione frequente tra GPU per sincronizzare i calcoli e condividere i risultati. È qui che la velocità di interconnessione diventa critica. La larghezza di banda NVLink ridotta nell'H800 rallenta la comunicazione tra GPU durante questa fase, portando a una latenza aumentata e a una riduzione dell'efficienza complessiva dell'addestramento.

Questo collo di bottiglia diventa ancora più pronunciato in scenari che coinvolgono modelli di grandi dimensioni con miliardi di parametri, dove è richiesta una comunicazione frequente tra GPU per sincronizzare i calcoli tensoriali. Mentre il parallelismo tensore è il più sensibile all'interconnessione più lenta, non è l'unico aspetto interessato.

Scalare l'addestramento AI sull'H800 diventa sempre più difficile a causa dell'interconnessione più lenta, che non è l'ideale per carichi di lavoro che si basano in modo significativo su una comunicazione multi-GPU efficiente.

Formazione del modello DeepSeek

Considerate le sfide legate all'adattamento dell'addestramento sulle GPU H800, sorge spontanea la domanda: come ha fatto DeepSeek ad addestrare un modello di intelligenza artificiale (SOTA) all'avanguardia come R1? DeepSeek-R1 è una versione migliorata di DeepSeek-v3, un modello di parametri 671B. Questo modello di base DeepSeek-v3 è stato sottoposto a ulteriore addestramento di apprendimento rinforzato (RL) per indurre un comportamento di ragionamento nel modello. 

Una cosa importante da notare è che i numeri e le tecniche menzionati in precedenza si riferiscono a Documento di ricerca DeepSeek-v3. DeepSeek-R1 ha richiesto risorse di training aggiuntive, ma i dettagli esatti non sono disponibili. Tuttavia, DeepSeek-v3 è un modello SOTA e molte tecniche menzionate nel documento DeepSeek-v3 sono state probabilmente trasferite al training di R1.

Inoltre, i numeri sono riportati solo per l'ultima sessione di training riuscita. Questo non considera esperimenti su architettura, algoritmi o dati. Ma anche considerando questo, DeepSeek, secondo il suo self-report, ha raggiunto questa impresa con risorse significativamente inferiori rispetto a Llama di Meta.

Quindi, premesso questo, come ha fatto DeepSeek ad addestrare un modello così impressionante? Senza addentrarci troppo nei dettagli, che sarebbero fuori dall'ambito di questo articolo, le tecniche utilizzate per addestrare DeepSeek v3 possono essere raggruppate in due categorie principali: sfruttare FP8 a precisione inferiore per l'addestramento e ottimizzare la comunicazione inter-GPU per ridurre al minimo le operazioni costose. L'adozione dell'addestramento FP8 a precisione mista su larga scala è stata una novità che ha ridotto le dimensioni dei pesi e aumentato la produttività computazionale (TFLOP), consentendo un addestramento più rapido ed efficiente. D'altro canto, le ottimizzazioni della comunicazione, come la riduzione al minimo della necessità di parallelismo tensore e il miglioramento della comunicazione tra nodi, hanno affrontato le sfide poste dalla limitata larghezza di banda di interconnessione delle GPU H800.

Storicamente, FP8 non è stato ampiamente utilizzato per l'addestramento perché i gradienti, critici per l'aggiornamento dei pesi del modello durante la backpropagation, spesso non riescono a convergere quando rappresentati in un formato a così bassa precisione. La gamma dinamica limitata e la precisione di FP8 rendono difficile catturare con precisione aggiornamenti di peso minori, portando a instabilità nell'addestramento. DeepSeek-v3 ha superato questa sfida introducendo alcune tecniche di quantizzazione a grana fine, come il ridimensionamento tile-wise e block-wise, che hanno consentito al modello di ridimensionare in modo adattivo attivazioni e pesi per gestire meglio i valori anomali. Ciò è stato combinato con una migliore precisione di accumulo tramite promozione FP32 intermedia a precisione più elevata, che ha consentito l'addestramento utilizzando FP8.

Sul lato della comunicazione, è stato sviluppato l'algoritmo "DualPipe" per sovrapporre elaborazione e comunicazione, riducendo significativamente le bolle di pipeline. Cos'è una bolla di pipeline? Nel parallelismo di pipeline, l'addestramento è suddiviso in fasi e distribuito tra le GPU. Quando si utilizza questa strategia, possono verificarsi periodi di inattività quando alcune GPU sono in attesa che i dati delle fasi precedenti nella pipeline o delle fasi successive siano pronti, riducendo l'MFU del cluster di addestramento. DualPipe riduce al minimo queste inefficienze sovrapponendo elaborazione e comunicazione, nascondendo la latenza e mantenendo occupate le GPU. Insieme a DualPipe, è stato implementato anche un kernel di comunicazione all-to-all cross-node personalizzato per utilizzare appieno le larghezze di banda NVLink e InfiniBand per garantire un ridimensionamento efficiente tra i nodi.

Queste innovazioni sono state progettate meticolosamente per superare i limiti hardware e consentire l'addestramento efficiente dei modelli DeepSeek.

Cosa significa questo per gli altri laboratori di intelligenza artificiale e per l'intera comunità dell'intelligenza artificiale?

Il rilascio di DeepSeek-R1 ha scatenato una discussione e una riflessione significative all'interno della comunità AI. Mentre alcuni si sono impegnati a puntare il dito sui tempi e sui metodi del suo rilascio, è essenziale riconoscere il contesto più ampio dello sviluppo del modello AI. L'addestramento dei modelli SOTA è un processo che richiede molto tempo e i modelli che vediamo oggi hanno probabilmente iniziato i loro cicli di addestramento già alla fine del 2023 o all'inizio del 2024.

Non dovremmo inoltre ignorare il paradigma in evoluzione nello sviluppo di modelli di intelligenza artificiale. Storicamente, il pre-addestramento su enormi set di dati era essenziale a causa della mancanza di dati sintetici di alta qualità da altri modelli e poiché il pre-addestramento in scala forniva significativi guadagni in termini di prestazioni. Pertanto, i primi modelli si basavano in gran parte su dati scraped e sul pre-addestramento in scala per raggiungere le loro capacità. Tuttavia, l'attuale generazione di modelli, incluso DeepSeek-R1, ha tratto notevoli benefici dai dati sintetici in varie fasi di addestramento. Anche la famiglia di modelli o1 di OpenAI è probabilmente basata su precedenti modelli GPT 4o e si è evoluta da un massiccio modello GPT 1.8 da 4 trilioni di parametri a un modello Turbo più efficiente e, infine, probabilmente a modelli 4o molto più piccoli che utilizziamo oggi.

Vale anche la pena notare che DeepSeek-R1 è solo l'inizio. Altre organizzazioni, come Anthropic, Meta, Mistral e Cohere, stanno quasi certamente lavorando su modelli di ragionamento simili. Il rilascio di R1 segna l'inizio di una nuova ondata di modelli di intelligenza artificiale che continueranno a spingere i confini del ragionamento, della risoluzione dei problemi e delle prestazioni specifiche per attività. La crescente disponibilità di potenza GPU accelera ulteriormente questa tendenza, consentendo ai laboratori di generare più dati sintetici per la messa a punto e l'apprendimento per rinforzo (RL). Ciò, a sua volta, consente ai modelli di eccellere in attività complesse come la generazione di codice e il ragionamento logico.

L'iniziativa open source di DeepSeek avrà un profondo impatto sulla comunità AI. Rendere il loro modello e le loro metodologie disponibili al pubblico ha alimentato l'innovazione all'interno della comunità open source e ha ispirato altri laboratori ad adottare approcci simili. Il riconoscimento da parte di DeepSeek del valore della collaborazione open source si basa sul precedente stabilito da organizzazioni come Meta, il team Qwen di Alibaba e altri. Senza questi contributi precedenti, la comunità AI sarebbe probabilmente molto meno avanzata di quanto non sia oggi.

Conclusione

La release open source di DeepSeek-R1 è un passo nella giusta direzione. Mentre i modelli closed source hanno il loro posto, il movimento open source assicura che l'innovazione sia accessibile a un pubblico più ampio, promuovendo un ambiente più inclusivo e competitivo.

L'intelligenza artificiale è un processo iterativo e la comunità open source prospera su questa natura iterativa, accelerando il progresso in modi senza precedenti. Molti credono fermamente che l'open source sia l'unica via da seguire, assicurando che nessuna singola entità possieda l'intelligenza artificiale o potenzialmente l'AGI (intelligenza artificiale generale) in futuro. Uno dei principali laboratori di intelligenza artificiale della Cina condivide questa filosofia, supportando e contribuendo apertamente al movimento open source, convalidandone solo l'importanza.

In definitiva, DeepSeek-R1 è più di un semplice modello; è un invito all'azione. Ispira ricercatori, sviluppatori e appassionati a spingere i confini di ciò che è possibile, a innovare con le risorse che hanno e a contribuire a un campo in rapida evoluzione. Mentre il panorama dell'IA continua a crescere, lo spirito iterativo e collaborativo della comunità open source rimarrà una forza trainante, plasmando il futuro dell'intelligenza artificiale in modi senza precedenti.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed