DeepSeek afirma que su modelo de IA más reciente es tan bueno como los de sus rivales estadounidenses, más barato de construir y está disponible de manera gratuita. ¿Qué significa esto para la supremacía de la IA en EE.UU.?
Una empresa china llamada DeepSeek, que recientemente hizo de código abierto un modelo de lenguaje avanzado que asegura desempeñarse tan bien como los sistemas de inteligencia artificial más avanzados de OpenAI, se ha convertido en el centro de atención de la comunidad de IA. Su tecnología es aclamada como uno de los mejores competidores de código abierto frente a los modelos de IA estadounidenses, avivando la preocupación por la fortaleza de China en la creciente carrera internacional por la IA y motivando a las startups de EE.UU. a replantear su propio trabajo, después de que un rival extranjero aparentemente lograra mucho más con muchos menos recursos.
A finales de diciembre, este pequeño laboratorio chino, con sede en Hangzhou, lanzó V3, un modelo de lenguaje con 671.000 millones de parámetros, que aparentemente fue entrenado en solo dos meses por un costo de 5,58 millones de dólares. Esto representa un costo significativamente menor al del modelo GPT-4 de OpenAI, un modelo más grande con un estimado de 1,8 billones de parámetros, construido con un costo de 100 millones de dólares. La semana pasada, DeepSeek lanzó otro desafío al presentar un modelo llamado R-1, que asegura igualar al modelo o1 de OpenAI en tareas de razonamiento, como codificación y resolución de problemas complejos de matemáticas y ciencias. Mientras OpenAI cobra a los usuarios 200 de dólares al mes por estos modelos, DeepSeek ofrece el suyo de manera gratuita.
El poder del modelo de DeepSeek y su precio ya están cambiando la forma en que las startups de IA estadounidenses gestionan sus negocios. “Es una alternativa económica y convincente frente a las ofertas de gigantes como OpenAI”, comentó Jesse Zhang, CEO de Decagon, una empresa que crea agentes de IA para servicio al cliente, a Forbes. El nuevo modelo de DeepSeek probablemente obligará a gigantes estadounidenses de la IA como OpenAI y Anthropic a reconsiderar sus propios precios.
Eiso Kant, CTO y cofundador de Poolside AI, un unicornio que desarrolla IA para ingeniería de software, dijo a Forbes que la fortaleza de DeepSeek radica en su capacidad de ingeniería para hacer más con menos.
“Lo que DeepSeek está mostrando al mundo es que, al poner un fuerte énfasis en la eficiencia computacional del entrenamiento, se puede lograr mucho”, explicó. “Es increíble lo que se puede sacar de estos chips de Nvidia al hacerlos mucho más eficientes”.
Con el modelo o1 de OpenAI supuestamente superado en ciertos puntos de referencia, algunas startups ya han comenzado a adquirir datos para entrenar sistemas más avanzados. Manu Sharma, CEO de la compañía de etiquetado de datos Labelbox, comentó: “Creo que la carrera por la inteligencia general artificial (AGI) se ha reiniciado de muchas maneras. Vamos a ver mucha más competitividad en general”.
Alexandr Wang, CEO multimillonario de Scale AI, una empresa líder en datos de entrenamiento, calificó el modelo como “revolucionario”. Aravind Srinivas, CEO de la startup de búsqueda por IA Perplexity, valorada en 9.000 millones de dólares, integró el modelo en su producto principal de búsqueda. Además, la compañía de chips de IA Groq ya ha añadido el modelo R-1 de DeepSeek a sus unidades de procesamiento de lenguaje. (En junio, Forbes envió a Perplexity una orden de cese y desistimiento tras acusar a la startup de utilizar sus reportajes sin permiso).
Otros no están tan impresionados. May Habib, CEO de Writer, comentó a Forbes que no le sorprende que los modelos de DeepSeek, entrenados con presupuestos significativamente más pequeños, puedan igualar a los más inteligentes de EE.UU. En octubre, Writer lanzó un modelo que fue entrenado con solo 700.000 de dólares, mientras que OpenAI gastó 4,6 millones de dólares en construir un modelo con capacidades similares. Habib dijo que lograron reducir costos utilizando datos sintéticos.
“Antes de que el modelo de DeepSeek explotara en la escena, ya decíamos que estos modelos se estaban convirtiendo en una mercancía. Cada vez son más accesibles”, añadió.
Durante el fin de semana, mientras crecía el interés por la compañía, DeepSeek superó a ChatGPT en la App Store de Apple, ocupando el primer lugar en descargas gratuitas en Estados Unidos. El lunes, varias acciones tecnológicas estadounidenses cayeron en picada, ya que el éxito del modelo de DeepSeek generó pánico. Al final del día, la capitalización de mercado del gigante de chips Nvidia se redujo en casi 600.000 millones de dólares.
Fue un cambio sísmico en el orden mundial de la IA. “Es increíble que alguien pueda gastar cientos de millones de dólares en un modelo cerrado, y luego aparezca un modelo de código abierto que está disponible gratuitamente”, dijo Greg Kamradt, presidente de ARC Prize, una organización sin fines de lucro que evalúa modelos de IA.
Durante semanas, los modelos de DeepSeek han sido elogiados por nombres prominentes en el mundo de la IA, incluidos Yann LeCun, científico jefe de IA de Meta, Andrej Karpathy, cofundador de OpenAI, y Jim Fan, investigador sénior de Nvidia. Pero las noticias sobre los últimos logros de la empresa han puesto a los gigantes de la IA de EE.UU. a la defensiva, intentando entender cómo la compañía china está logrando resultados tan impresionantes con menos recursos.
“El modelo R-1 de DeepSeek es el momento Sputnik de la IA”, escribió el inversionista multimillonario Marc Andreessen en X.
A pesar de los recientes anuncios de la administración Trump sobre IA, DeepSeek ha intensificado los temores de que EE.UU. esté perdiendo su liderazgo en IA, especialmente porque ha sido tan exitoso a pesar de las estrictas restricciones de exportación de EE.UU., que le impiden usar los chips de IA más avanzados de Nvidia. El último logro de la compañía es un contrapunto contundente al Proyecto Stargate, una empresa conjunta entre OpenAI, Oracle y el conglomerado tecnológico japonés SoftBank, que planea invertir 500.000 millones de dólares en infraestructura de IA.
Antes de una reunión con republicanos en Florida el lunes, Trump reconoció la amenaza: “El lanzamiento de DeepSeek, una IA de una empresa china, debería ser una llamada de atención para nuestras industrias, necesitamos enfocarnos en competir para ganar”, dijo.
Sin embargo, hay advertencias respecto al logro de DeepSeek. Investigadores han descubierto que sus modelos de IA tienden a autocensurarse en temas sensibles para el Partido Comunista Chino (PCC). La investigadora de seguridad Jane Manchun Wong dijo a Forbes que los modelos de DeepSeek no responden preguntas sobre el presidente chino Xi Jinping ni sobre las protestas de la Plaza de Tiananmén de 1989. Además, hay preocupaciones sobre la privacidad, ya que los datos ingresados en los modelos de DeepSeek se almacenan en servidores ubicados en China.
Divyansh Kaushik, vicepresidente de la firma de asesoría en seguridad nacional Beacon Global Strategies, advirtió a Forbes contra el uso de DeepSeek sin una evaluación minuciosa. “A menos que podamos tener evaluaciones claras de seguridad nacional y libertad de expresión de los modelos chinos, deberían ser tratados como brazos de propaganda del PCC”, dijo. “Deberían considerarse como Huawei pero en esteroides”.
El problema radica en la propuesta de valor de DeepSeek: un modelo de razonamiento de IA de última generación que es gratuito y abierto en un mundo cerrado y basado en tarifas, construido por compañías como OpenAI y Anthropic. “Es mucho mejor tener un modelo chino de código abierto que uno estadounidense cerrado”, comentó Sharma de Labelbox.
Este artículo fue publicado originalmente en Forbes US
