DeepSeek R1: el LLM chino que cambió la economía de la inteligencia artificial

DeepSeek R1 no es solo otro chatbot.

Es una señal de que la ventaja en IA depende cada vez más de la eficiencia, la apertura de los pesos y la capacidad de escalar el razonamiento a bajo costo.

DeepSeek R1 se ha convertido en uno de los puntos de referencia más importantes en el debate sobre modelos lingüísticos chinos, ya que combinó tres cosas que rara vez aparecen juntas: resultados muy sólidos en tareas de razonamiento, pesos disponibles públicamente y una narrativa de eficiencia de costos radical.

En la práctica, no se trata de si cada benchmark de DeepSeek debe considerarse como una prueba directa de superioridad sobre los modelos cerrados de EE.

UU.

Lo más importante es que DeepSeek ha movido el límite de expectativas para los modelos abiertos: dado que un laboratorio fuera del centro de mercado estadounidense puede publicar un modelo razonador cuyos resultados se comparan con modelos de clase OpenAI o1, las empresas, universidades y la administración están empezando a calcular los costos de implementación de IA de manera diferente.

La parte más concreta de la historia comienza con DeepSeek-V3.

En un informe técnico de diciembre de 2024, los autores describieron un modelo tipo mixture-of-experts con 671 mil millones de parámetros totales y aproximadamente 37 mil millones de parámetros activos por token.