Investigadores acusan a OpenAI de entrenar sus modelos con libros de pago de O’Reilly
Un estudio sugiere que GPT-4o reconoce contenido bajo suscripción sin licencia previa. La organización AI Disclosures Project analizó 34 libros técnicos y detectó patrones de uso en el modelo más avanzado de la compañía. OpenAI no se ha pronunciado al respecto.
«Reconocimiento elevado de contenido no público»
El informe del AI Disclosures Project, cofundado por Tim O’Reilly, señala que GPT-4o identifica fragmentos de libros con paywall mejor que sus predecesores. La técnica DE-COP, empleada en el estudio, sugiere que el modelo tuvo acceso previo a este material. «No es una prueba irrefutable, pero los indicios son claros», admiten los autores.
Método y hallazgos clave
Analizaron 13.962 extractos de 34 libros técnicos publicados antes y después de las fechas límite de entrenamiento. GPT-4o mostró «mayor probabilidad de reconocimiento» en textos bajo suscripción, frente a versiones públicas o modelos antiguos como GPT-3.5 Turbo. Los investigadores descartaron que la mejora se deba solo a capacidades avanzadas de inferencia.
OpenAI y la polémica de los datos
La compañía carece de acuerdos con O’Reilly Media, según el estudio. Aunque OpenAI tiene licencias con otras editoriales y permite opciones de exclusión, el informe alimenta las críticas por el uso de material protegido. Actualmente, la empresa enfrenta demandas en EE.UU. por prácticas similares.
Búsqueda de datos de calidad
OpenAI ha contratado a periodistas y expertos para refinar sus modelos, reflejando una tendencia en la industria de la IA. El agotamiento de fuentes públicas y los riesgos de usar datos sintéticos explicarían la posible dependencia de contenido restringido.
Un escenario legal enrevesado
El texto recuerda que OpenAI aboga por regulaciones más flexibles sobre derechos de autor. Sin embargo, casos como este complican su posición jurídica, pese a que el estudio no evaluó sus modelos más recientes (GPT-4.5 u o3-mini).
¿Hacia dónde va el debate?
La investigación refuerza las dudas sobre el origen de los datos de entrenamiento en IA. Aunque el método tiene limitaciones, el patrón detectado en GPT-4o podría influir en futuras regulaciones y demandas contra la compañía.