DeepSeek actualiza su modelo R1 con datos de Gemini

Investigadores sospechan que la IA china usó salidas de Google para entrenar su sistema. Análisis detectaron similitudes con el lenguaje de Gemini.
TechCrunch

DeepSeek actualiza su modelo R1 con posibles datos de Gemini

Investigadores sospechan que la IA china usó salidas de Google para entrenar su sistema. La empresa no reveló sus fuentes de datos, pero análisis independientes detectaron similitudes con el lenguaje de Gemini. El debate sobre el uso ético de datos en IA se intensifica.

«¿Gemini escondido en el código?»

El desarrollador Sam Paech señaló que el modelo R1-0528 de DeepSeek emplea expresiones similares a Gemini 2.5 Pro. Otro experto anónimo observó que sus «trazas de pensamiento» coinciden con las del sistema de Google. «No es una prueba definitiva, pero el patrón es llamativo», admitió Paech en redes.

Antecedentes controvertidos

No es la primera vez que DeepSeek enfrenta acusaciones de usar datos de competidores. En diciembre, su modelo V3 se identificaba erróneamente como ChatGPT, sugiriendo un posible entrenamiento con registros de OpenAI. Bloomberg reportó que Microsoft detectó extracción masiva de datos desde cuentas vinculadas a DeepSeek en 2024.

La batalla por los datos sintéticos

Nathan Lambert, investigador de IA, argumentó que DeepSeek podría usar datos de Gemini para compensar su escasez de GPUs. «Con dinero pero sin recursos, es lógico que optimicen así», explicó. Mientras, Google y OpenAI reforzaron sus medidas de seguridad, como verificación de identidad o resumen de trazas, para evitar este tipo de prácticas.

Un ecosistema contaminado

La web está saturada de contenido generado por IA, desde granjas de clics hasta bots en redes. Esto dificulta filtrar datos «limpios» para entrenar modelos. Aunque las coincidencias lingüísticas no son concluyentes, la contaminación de datos agrava la opacidad en el desarrollo de IA.

¿Hacia una regulación más estricta?

Las empresas tecnológicas blindan sus modelos ante el riesgo de distilling. El caso DeepSeek refleja los desafíos éticos y competitivos en la carrera por la supremacía de la IA, donde el origen de los datos sigue siendo un campo minado.