| Inteligencia Artificial | Privacidad y seguridad |

OpenAI acusado de usar libros de pago para entrenar GPT-4o

TechCrunch

Researchers suggest OpenAI trained AI models on paywalled O'Reilly books | TechCrunch
Kyle Wiggers
TechCrunch
en_US
Publicado el: 1743538200000
1743542438
https://techcrunch.com/2025/04/01/researchers-suggest-openai-trained-ai-models-on-paywalled-oreilly-books

Un estudio revela que GPT-4o reconoce contenido bajo suscripción de O'Reilly sin licencia, según el AI Disclosures Project. OpenAI no ha respondido a las acusaciones.

Investigadores acusan a OpenAI de entrenar sus modelos con libros de pago de O’Reilly

Un estudio sugiere que GPT-4o reconoce contenido bajo suscripción sin licencia previa. La organización AI Disclosures Project analizó 34 libros técnicos y detectó patrones de uso en el modelo más avanzado de la compañía. OpenAI no se ha pronunciado al respecto.

«Reconocimiento elevado de contenido no público»

El informe del AI Disclosures Project, cofundado por Tim O’Reilly, señala que GPT-4o identifica fragmentos de libros con paywall mejor que sus predecesores. La técnica DE-COP, empleada en el estudio, sugiere que el modelo tuvo acceso previo a este material. «No es una prueba irrefutable, pero los indicios son claros», admiten los autores.

Método y hallazgos clave

Analizaron 13.962 extractos de 34 libros técnicos publicados antes y después de las fechas límite de entrenamiento. GPT-4o mostró «mayor probabilidad de reconocimiento» en textos bajo suscripción, frente a versiones públicas o modelos antiguos como GPT-3.5 Turbo. Los investigadores descartaron que la mejora se deba solo a capacidades avanzadas de inferencia.

OpenAI y la polémica de los datos

La compañía carece de acuerdos con O’Reilly Media, según el estudio. Aunque OpenAI tiene licencias con otras editoriales y permite opciones de exclusión, el informe alimenta las críticas por el uso de material protegido. Actualmente, la empresa enfrenta demandas en EE.UU. por prácticas similares.

Búsqueda de datos de calidad

OpenAI ha contratado a periodistas y expertos para refinar sus modelos, reflejando una tendencia en la industria de la IA. El agotamiento de fuentes públicas y los riesgos de usar datos sintéticos explicarían la posible dependencia de contenido restringido.

Un escenario legal enrevesado

El texto recuerda que OpenAI aboga por regulaciones más flexibles sobre derechos de autor. Sin embargo, casos como este complican su posición jurídica, pese a que el estudio no evaluó sus modelos más recientes (GPT-4.5 u o3-mini).

¿Hacia dónde va el debate?

La investigación refuerza las dudas sobre el origen de los datos de entrenamiento en IA. Aunque el método tiene limitaciones, el patrón detectado en GPT-4o podría influir en futuras regulaciones y demandas contra la compañía.

Post Views: 44