OpenAI acusado de usar libros de pago para entrenar GPT-4o

Un estudio revela que GPT-4o reconoce contenido bajo suscripción de O'Reilly sin licencia, según el AI Disclosures Project. OpenAI no ha respondido a las acusaciones.
TechCrunch
Pantalla con líneas de código binario y un logotipo en color azul.
Imagen que presenta una pantalla llena de líneas de código binario en azul y un logotipo prominente.

Investigadores acusan a OpenAI de entrenar sus modelos con libros de pago de O’Reilly

Un estudio sugiere que GPT-4o reconoce contenido bajo suscripción sin licencia previa. La organización AI Disclosures Project analizó 34 libros técnicos y detectó patrones de uso en el modelo más avanzado de la compañía. OpenAI no se ha pronunciado al respecto.

«Reconocimiento elevado de contenido no público»

El informe del AI Disclosures Project, cofundado por Tim O’Reilly, señala que GPT-4o identifica fragmentos de libros con paywall mejor que sus predecesores. La técnica DE-COP, empleada en el estudio, sugiere que el modelo tuvo acceso previo a este material. «No es una prueba irrefutable, pero los indicios son claros», admiten los autores.

Método y hallazgos clave

Analizaron 13.962 extractos de 34 libros técnicos publicados antes y después de las fechas límite de entrenamiento. GPT-4o mostró «mayor probabilidad de reconocimiento» en textos bajo suscripción, frente a versiones públicas o modelos antiguos como GPT-3.5 Turbo. Los investigadores descartaron que la mejora se deba solo a capacidades avanzadas de inferencia.

OpenAI y la polémica de los datos

La compañía carece de acuerdos con O’Reilly Media, según el estudio. Aunque OpenAI tiene licencias con otras editoriales y permite opciones de exclusión, el informe alimenta las críticas por el uso de material protegido. Actualmente, la empresa enfrenta demandas en EE.UU. por prácticas similares.

Búsqueda de datos de calidad

OpenAI ha contratado a periodistas y expertos para refinar sus modelos, reflejando una tendencia en la industria de la IA. El agotamiento de fuentes públicas y los riesgos de usar datos sintéticos explicarían la posible dependencia de contenido restringido.

Un escenario legal enrevesado

El texto recuerda que OpenAI aboga por regulaciones más flexibles sobre derechos de autor. Sin embargo, casos como este complican su posición jurídica, pese a que el estudio no evaluó sus modelos más recientes (GPT-4.5 u o3-mini).

¿Hacia dónde va el debate?

La investigación refuerza las dudas sobre el origen de los datos de entrenamiento en IA. Aunque el método tiene limitaciones, el patrón detectado en GPT-4o podría influir en futuras regulaciones y demandas contra la compañía.

Lara acusa a Tuto Quiroga de planear fraude electoral en Bolivia

El candidato vicepresidencial Edmundo Lara acusa a Jorge Tuto Quiroga de planear un fraude electoral y anuncia movilizaciones para
Edmand Lara, candidato a vicepresidente del PDC, y Jorge Tuto Quiroga, aspirante a presidente por la Alianza Libre. / APG / Información de la fuente de la imagen no disponible

TSE sortea 213.000 jurados e imprime papeletas para segunda vuelta electoral

El Tribunal Supremo Electoral sortea 213.000 jurados e imprime más de 8 millones de papeletas con medidas de seguridad
Papeleta para la segunda vuelta electoral. / El Deber / ANF

Fiscalía confirma que Naoki Ishida murió por broncoaspiración

La fiscalía confirma que Naoki Ishida, vocalista de Explosión Cumbiera, falleció por broncoaspiración, descartando signos de violencia o participación
Imagen sin título / Información de autor no disponible / ABI

ANP alerta sobre sanciones a radios que amenazan su supervivencia

La ANP advierte sobre multas desproporcionadas a radioemisoras por errores en propaganda electoral que amenazan su continuidad.
Radioemisoras recibieron notificaciones de multas. / ARCHIVO / Correo del Sur

Lara niega querer convulsionar pero insiste en denunciar un posible fraude electoral

El candidato vicepresidencial anuncia dos delegados por mesa para supervisar el proceso y evitar posibles irregularidades.
Imagen sin título / Información de autor no disponible / Diario Correo del Sur

fallece ‘jesús’, el emblemático caimán negro de las pampas del yacuma

El emblemático caimán negro de Santa Rosa de Yacuma murió tras un enfrentamiento territorial, dejando un legado conservacionista.
jesús, el caimán negro, fue un conocido atractivo turístico en santa rosa de yacuma / Información de autor no disponible / ELDEBER.com.bo

TSE definirá este miércoles sedes y formato de transmisión para debates

El Tribunal Supremo Electoral decidirá este miércoles las ciudades y formato de transmisión para los dos debates de la
Imagen referencial de un debate electoral. / Información de autor no disponible / Correo del Sur

Diputada demanda al alcalde de San Ignacio de Velasco por contaminación ambiental

Diputada demanda al alcalde por vertedero ilegal sin licencia ambiental que opera desde hace 15 años, contaminando suelo y
Dibujo de un televisor antiguo con el texto 'IMAGEN NO DISPONIBLE'.

Doce incendios forestales activos en varios municipios de Santa Cruz

Doce incendios forestales activos en siete municipios de Santa Cruz mantienen en alerta roja a la región.
Imagen sin título / Información de autor no disponible / URGENTE.BO

Bolivia prevé su incorporación plena al Mercosur para agosto de 2028

Bolivia confirmó su incorporación plena al Mercosur para agosto de 2028, culminando un proceso histórico de integración regional.
Reunión de Ministros de Relaciones Exteriores del Mercosur. / CANCILLERÍA / OXIGENO.BO

senado remite a comisión proyecto de diferimiento de créditos tras rechazo bancario

El Senado deriva a comisión un proyecto que difiere créditos y suspende embargos por 6 meses, generando rechazo bancario.
imagen referencial de dinero en diferentes cortes / Información de autor no disponible / URGENTE.BO

Alfredo Romero Dávalos será declarado Hijo Ilustre de Santa Cruz

El cardiólogo Alfredo Romero Dávalos es declarado Hijo Ilustre por su trayectoria profesional y labor social en Santa Cruz
Alfredo Romero Dávalos, cardiólogo distinguido como Hijo Ilustre / Información de autor no disponible / EL DEBER