Inicio Empresa Cómo DeepSeek-R1 superó las limitaciones del hardware para ofrecer avances en inteligencia artificial

Cómo DeepSeek-R1 superó las limitaciones del hardware para ofrecer avances en inteligencia artificial

by Divyansh Jain

DeepSeek-R1 es un modelo de IA de código abierto que rivaliza con el mejor de OpenAI, lo que demuestra que la innovación no se trata solo de computación, sino de ingeniería inteligente.

En el mundo de la inteligencia artificial, un nuevo actor ha tomado por asalto a la comunidad. DeepSeek-R1, un modelo de razonamiento de código abierto, está en los titulares por su rendimiento innovador. Este modelo se ha convertido en un serio competidor, rivalizando con la línea de modelos insignia O1 de OpenAI en capacidad y siendo significativamente más rentable. Aún más impresionante es que el equipo de DeepSeek logró esta hazaña con recursos mucho menores y restringidos, adhiriéndose a estrictas regulaciones de exportación de GPU. Pero, ¿qué es exactamente DeepSeek y por qué este desarrollo es un avance tan monumental en la investigación de la IA?

¿Quién es DeepSeek y qué es un modelo de razonamiento?

DeepSeek es un ambicioso laboratorio de investigación de inteligencia artificial con sede en China que ha ganado rápidamente reconocimiento por su enfoque innovador y accesible a la inteligencia artificial. Al centrarse en el desarrollo de código abierto, se han posicionado como un actor clave en la comunidad de inteligencia artificial, creando modelos de alto rendimiento disponibles para un público más amplio. Su última creación, DeepSeek-R1, es un "modelo de razonamiento", un tipo de modelo de inteligencia artificial diseñado para sobresalir en la deducción lógica, la resolución de problemas y la comprensión de relaciones complejas más allá del reconocimiento de patrones básicos.

Los modelos de razonamiento como DeepSeek-R1 se diferencian de los modelos de lenguaje extenso (LLM) tradicionales porque simulan un proceso de pensamiento paso a paso. En lugar de simplemente generar respuestas basadas en patrones en los datos, R1 descompone los problemas complejos en pasos lógicos más pequeños antes de llegar a una solución. Si bien este enfoque puede demorar un poco más durante la inferencia, permite que el modelo funcione significativamente mejor en tareas que requieren una comprensión profunda, como el razonamiento matemático, la asistencia de programación y la toma de decisiones.

Por qué DeepSeek-R1 es un cambio radical

Lo que realmente distingue a DeepSeek-R1 es que es de código abierto. En una industria en la que los modelos de IA líderes suelen estar bloqueados, DeepSeek ha publicado su modelo y un documento de investigación detallado que describe sus metodologías exactas. Este movimiento audaz supone un cambio significativo con respecto a la naturaleza típicamente cerrada de organizaciones como OpenAI.

Esta apertura ha desencadenado una ola de experimentación en la comunidad de IA. Desarrolladores e investigadores de todo el mundo están hospedando DeepSeek-R1 para explorar y evaluar sus capacidades. Cabe destacar que existen iniciativas para replicar las estrategias descritas en el documento, como Proyecto Open-R1 de Huggingface en GitHub, una reproducción totalmente abierta y en proceso de desarrollo de DeepSeek-R1, incluido el código de entrenamiento. Estos esfuerzos amplifican aún más la accesibilidad y el potencial colaborativo de R1, lo que permite que una audiencia más amplia participe y desarrolle sus innovaciones.

El lanzamiento de DeepSeek-R1 tiene implicaciones de largo alcance para la comunidad de IA y más allá. Al poner a disposición abiertamente su modelo y su investigación, DeepSeek ha reducido las barreras a la innovación en IA. Los investigadores independientes, las empresas emergentes y los aficionados ahora tienen acceso a un modelo de razonamiento de vanguardia que normalmente requeriría inmensos recursos financieros y computacionales para su desarrollo. La naturaleza de código abierto de esta versión ya ha provocado la experimentación creativa dentro de la comunidad; los desarrolladores están experimentando con Combinando las capacidades de razonamiento de DeepSeek-R1 con otros modelos para mejorar el rendimiento del modelo. Un ejemplo notable es la integración con Claude Sonnet 3.5 de Anthropic, conocido por su sólido rendimiento de codificación; cuando se combina con las capacidades de razonamiento de R1 de DeepSeek, pudo obtener una puntuación mucho más alta en Puntos de referencia como Aidar Bench.

Comprender la Nvidia H800 y las diferencias clave con la H100

A primera vista, la Nvidia H800 parece ser una versión ligeramente reducida de la H100, y la diferencia más notable está en el rendimiento de cómputo FP64. La H100 cuenta con 34 TFLOP de rendimiento FP64 en comparación con solo 1 TFLOP en la H800. Sin embargo, esta diferencia no es una preocupación significativa para la mayoría de las cargas de trabajo de IA. Los modelos de IA modernos generalmente se entrenan utilizando formatos de menor precisión como BF16 o FP16, optimizados para la velocidad y la eficiencia. La precisión FP64 se incluye principalmente en las GPU para mantener la compatibilidad con herramientas heredadas y aplicaciones de computación científica, donde los cálculos de doble precisión son esenciales. Para el entrenamiento de IA, el rendimiento FP64 rara vez es un cuello de botella.

El verdadero desafío del H800 es su velocidad de interconexión. Cuenta con un ancho de banda de interconexión NVLink 4.0 de 400 GB/s, menos de la mitad de los 900 GB/s que ofrece el H100. Esta reducción de más del 50 % en el ancho de banda tiene implicaciones significativas para las configuraciones de múltiples GPU, donde miles de GPU están interconectadas para entrenar a escala.

Tarjeta gráfica Nvidia H100 SXM Tarjeta gráfica Nvidia H800 SXM
FP64 34 TFLOPs 1 TFLOP
Núcleo tensor FP64 67 TFLOPs 1 TFLOP
FP32 67 TFLOPs 67 TFLOPs
Núcleo tensor FP32 989 TFLOP 989 TFLOP
Núcleo tensor BF16 1,979  TFLOP 1,979  TFLOP
Núcleo tensor FP16 1,979  TFLOP 1,979  TFLOP
Núcleo tensor FP8 3,958 TFLOP 3,958 TFLOP
Núcleo tensor INT8 3,958 TOP 3,958 TOP
Memoria de la GPU 80 GB 80 GB
Ancho de banda de memoria GPU 3.35 TB / s 3.35 TB / s
Potencia máxima de diseño térmico (TDP) 700W 700W
Velocidad de interconexión de NVIDIA NVLink 4.0 900GB / s 400GB / s

Por qué es importante la velocidad de interconexión: el impacto en la capacitación

En el entrenamiento de IA a gran escala, las GPU suelen trabajar juntas utilizando diversas técnicas de paralelismo. Algunas de las más comunes son el paralelismo de datos, el paralelismo de modelos, el paralelismo de canalización y el paralelismo de tensores. El paralelismo de tensores, en el que los tensores grandes se dividen entre varias GPU para realizar los cálculos, es particularmente sensible al ancho de banda de interconexión. 

Pero, ¿qué es exactamente un tensor? En términos simples, los tensores son estructuras de datos fundamentales que se utilizan en los modelos de IA para representar entradas, ponderaciones y cálculos intermedios.

Al entrenar modelos de IA de gran tamaño, estos tensores pueden llegar a ser tan grandes que no caben en la memoria de una sola GPU. Para solucionar esto, los tensores se dividen en varias GPU, y cada una de ellas procesa una parte del tensor. Esta división permite que el modelo se escale en varias GPU, lo que permite entrenar modelos mucho más grandes de lo que sería posible de otro modo.

Sin embargo, la división de tensores requiere una comunicación frecuente entre las GPU para sincronizar los cálculos y compartir los resultados. Aquí es donde la velocidad de interconexión se vuelve crítica. El ancho de banda reducido de NVLink en el H800 ralentiza la comunicación entre las GPU durante esta etapa, lo que genera una mayor latencia y una menor eficiencia general del entrenamiento.

Este cuello de botella se vuelve aún más pronunciado en escenarios que involucran modelos grandes con miles de millones de parámetros, donde se requiere una comunicación frecuente entre GPU para sincronizar los cálculos de tensores. Si bien el paralelismo de tensores es el más sensible a la interconexión más lenta, no es el único aspecto afectado.

Escalar el entrenamiento de IA en el H800 se vuelve cada vez más desafiante debido a la interconexión más lenta, lo que no es ideal para cargas de trabajo que dependen en gran medida de una comunicación multi-GPU eficiente.

Entrenamiento del modelo DeepSeek

Dados los desafíos que supone escalar el entrenamiento en las GPU H800, surge la pregunta natural: ¿cómo entrenó DeepSeek un modelo de IA de última generación (SOTA) como el R1? DeepSeek-R1 es una versión basada en DeepSeek-v3, un modelo de parámetros 671B. Este modelo base DeepSeek-v3 se sometió a un entrenamiento adicional de aprendizaje de refuerzo (RL) para inducir un comportamiento de razonamiento en el modelo. 

Una cosa importante a tener en cuenta es que los números y técnicas mencionados a continuación se refieren a la Documento de investigación sobre DeepSeek-v3DeepSeek-R1 requirió recursos de capacitación adicionales, pero los detalles exactos no están disponibles. Sin embargo, DeepSeek-v3 es un modelo SOTA y muchas técnicas mencionadas en el artículo de DeepSeek-v3 probablemente se hayan aplicado al entrenamiento de R1.

Además, los números solo se informan para la ejecución de entrenamiento final exitosa. Esto no considera experimentos sobre arquitectura, algoritmos o datos. Pero incluso teniendo en cuenta eso, DeepSeek, según su propio informe, logró esta hazaña con recursos significativamente menores que Llama de Meta.

Entonces, una vez aclarada esa cuestión, ¿cómo entrenó DeepSeek un modelo tan impresionante? Sin profundizar demasiado en los detalles, lo cual quedaría fuera del alcance de este artículo, las técnicas utilizadas para entrenar DeepSeek v3 se pueden agrupar en dos categorías principales: aprovechar el FP8 de menor precisión para el entrenamiento y optimizar la comunicación entre GPU para minimizar las operaciones costosas. La adopción del entrenamiento de precisión mixta FP8 a escala fue una novedad que redujo el tamaño de los pesos y aumentó el rendimiento computacional (TFLOP), lo que permitió un entrenamiento más rápido y eficiente. Por otro lado, las optimizaciones de la comunicación, como la minimización de la necesidad de paralelismo de tensores y la mejora de la comunicación entre nodos, abordaron los desafíos planteados por el ancho de banda de interconexión limitado de las GPU H800.

Históricamente, FP8 no se ha utilizado ampliamente para el entrenamiento porque los gradientes, críticos para actualizar los pesos del modelo durante la retropropagación, a menudo no convergen cuando se representan en un formato de tan baja precisión. El rango dinámico y la precisión limitados de FP8 dificultan la captura precisa de actualizaciones de peso menores, lo que genera inestabilidad en el entrenamiento. DeepSeek-v3 superó este desafío al introducir algunas técnicas de cuantificación de grano fino, como el escalado por mosaicos y por bloques, que permitieron que el modelo escalara de manera adaptativa las activaciones y los pesos para manejar mejor los valores atípicos. Esto se combinó con una precisión de acumulación mejorada a través de la promoción de FP32 de precisión intermedia más alta, que permitió el entrenamiento con FP8.

En cuanto a la comunicación, se desarrolló el “algoritmo DualPipe” para superponer el cálculo y la comunicación, lo que reduce significativamente las burbujas de pipeline. ¿Qué es una burbuja de pipeline? En el paralelismo de pipeline, el entrenamiento se divide en etapas y se distribuye entre las GPU. Al utilizar esta estrategia, pueden producirse períodos de inactividad cuando algunas GPU esperan que los datos de las etapas anteriores del pipeline o de las etapas posteriores estén listos, lo que reduce la MFU del clúster de entrenamiento. DualPipe minimiza estas ineficiencias al superponer el cálculo y la comunicación, ocultando la latencia y manteniendo ocupadas a las GPU. Junto con DualPipe, también se implementó un kernel de comunicación de todos a todos entre nodos personalizado para utilizar por completo los anchos de banda de NVLink e InfiniBand para garantizar un escalamiento eficiente entre nodos.

Estas innovaciones fueron diseñadas meticulosamente para superar las limitaciones restringidas del hardware y permitir el entrenamiento eficiente de los modelos DeepSeek.

¿Qué significa esto para otros laboratorios de IA y la comunidad de IA en su conjunto?

El lanzamiento de DeepSeek-R1 ha generado un debate y una reflexión importantes en la comunidad de IA. Si bien algunos han criticado el momento y los métodos de su lanzamiento, es esencial reconocer el contexto más amplio del desarrollo de modelos de IA. El entrenamiento de modelos SOTA es un proceso que requiere mucho tiempo y los modelos que vemos hoy probablemente comenzaron sus ciclos de entrenamiento a fines de 2023 o principios de 2024.

Tampoco debemos ignorar el paradigma en evolución en el desarrollo de modelos de IA. Históricamente, el preentrenamiento en conjuntos de datos masivos era esencial debido a la falta de datos sintéticos de alta calidad de otros modelos y dado que el escalado del preentrenamiento brindaba importantes ganancias de rendimiento. Por lo tanto, los primeros modelos dependían en gran medida de los datos extraídos y del escalado del preentrenamiento para lograr sus capacidades. Sin embargo, la generación actual de modelos, incluido DeepSeek-R1, se ha beneficiado significativamente de los datos sintéticos en varias etapas del entrenamiento. La familia de modelos o1 de OpenAI también probablemente se basa en modelos GPT 4o anteriores y ha evolucionado de un modelo GPT 1.8 masivo de 4 billones de parámetros a un modelo Turbo más eficiente y, finalmente, probablemente a los modelos 4o mucho más pequeños que usamos hoy.

También vale la pena señalar que DeepSeek-R1 es solo el comienzo. Es casi seguro que otras organizaciones, como Anthropic, Meta, Mistral y Cohere, estén trabajando en modelos de razonamiento similares. El lanzamiento de R1 señala el comienzo de una nueva ola de modelos de IA que seguirán ampliando los límites del razonamiento, la resolución de problemas y el rendimiento específico de las tareas. La creciente disponibilidad de potencia de GPU acelera aún más esta tendencia, lo que permite a los laboratorios generar más datos sintéticos para el ajuste fino y el aprendizaje de refuerzo (RL). Esto, a su vez, permite que los modelos se destaquen en tareas complejas como la generación de código y el razonamiento lógico.

La iniciativa de código abierto de DeepSeek tendrá un profundo impacto en la comunidad de IA. Poner a disposición del público su modelo y sus metodologías ha impulsado la innovación dentro de la comunidad de código abierto e inspirado a otros laboratorios a adoptar enfoques similares. El reconocimiento por parte de DeepSeek del valor de la colaboración en código abierto se basa en el precedente establecido por organizaciones como Meta, el equipo Qwen de Alibaba y otras. Sin estas contribuciones previas, la comunidad de IA probablemente estaría mucho menos avanzada de lo que está hoy.

Conclusión

El lanzamiento de DeepSeek-R1 en código abierto es un paso en la dirección correcta. Si bien los modelos de código cerrado tienen su lugar, el movimiento de código abierto garantiza que la innovación sea accesible a un público más amplio, lo que fomenta un entorno más inclusivo y competitivo.

La IA es un proceso iterativo, y la comunidad de código abierto prospera gracias a esta naturaleza iterativa, acelerando el progreso de maneras sin precedentes. Muchos creen firmemente que el código abierto es el único camino a seguir, lo que garantiza que ninguna entidad individual sea dueña de la IA o de la potencial IAG (Inteligencia Artificial General) en el futuro. Uno de los principales laboratorios de IA de China comparte esta filosofía, apoyando y contribuyendo abiertamente al movimiento de código abierto, lo que no hace más que validar su importancia.

En definitiva, DeepSeek-R1 es más que un simple modelo: es un llamado a la acción. Inspira a investigadores, desarrolladores y entusiastas a ampliar los límites de lo posible, a innovar con los recursos que tienen y a contribuir a un campo en rápida evolución. A medida que el panorama de la IA siga creciendo, el espíritu iterativo y colaborativo de la comunidad de código abierto seguirá siendo una fuerza impulsora que dará forma al futuro de la inteligencia artificial de maneras sin precedentes.

Interactuar con StorageReview

Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed