OpenAI acusado de usar libros de pago para entrenar GPT-4o

Un estudio revela que GPT-4o reconoce contenido bajo suscripción de O'Reilly sin licencia, según el AI Disclosures Project. OpenAI no ha respondido a las acusaciones.
TechCrunch
Pantalla con líneas de código binario y un logotipo en color azul.
Imagen que presenta una pantalla llena de líneas de código binario en azul y un logotipo prominente.

Investigadores acusan a OpenAI de entrenar sus modelos con libros de pago de O’Reilly

Un estudio sugiere que GPT-4o reconoce contenido bajo suscripción sin licencia previa. La organización AI Disclosures Project analizó 34 libros técnicos y detectó patrones de uso en el modelo más avanzado de la compañía. OpenAI no se ha pronunciado al respecto.

«Reconocimiento elevado de contenido no público»

El informe del AI Disclosures Project, cofundado por Tim O’Reilly, señala que GPT-4o identifica fragmentos de libros con paywall mejor que sus predecesores. La técnica DE-COP, empleada en el estudio, sugiere que el modelo tuvo acceso previo a este material. «No es una prueba irrefutable, pero los indicios son claros», admiten los autores.

Método y hallazgos clave

Analizaron 13.962 extractos de 34 libros técnicos publicados antes y después de las fechas límite de entrenamiento. GPT-4o mostró «mayor probabilidad de reconocimiento» en textos bajo suscripción, frente a versiones públicas o modelos antiguos como GPT-3.5 Turbo. Los investigadores descartaron que la mejora se deba solo a capacidades avanzadas de inferencia.

OpenAI y la polémica de los datos

La compañía carece de acuerdos con O’Reilly Media, según el estudio. Aunque OpenAI tiene licencias con otras editoriales y permite opciones de exclusión, el informe alimenta las críticas por el uso de material protegido. Actualmente, la empresa enfrenta demandas en EE.UU. por prácticas similares.

Búsqueda de datos de calidad

OpenAI ha contratado a periodistas y expertos para refinar sus modelos, reflejando una tendencia en la industria de la IA. El agotamiento de fuentes públicas y los riesgos de usar datos sintéticos explicarían la posible dependencia de contenido restringido.

Un escenario legal enrevesado

El texto recuerda que OpenAI aboga por regulaciones más flexibles sobre derechos de autor. Sin embargo, casos como este complican su posición jurídica, pese a que el estudio no evaluó sus modelos más recientes (GPT-4.5 u o3-mini).

¿Hacia dónde va el debate?

La investigación refuerza las dudas sobre el origen de los datos de entrenamiento en IA. Aunque el método tiene limitaciones, el patrón detectado en GPT-4o podría influir en futuras regulaciones y demandas contra la compañía.

Nintendo Switch 2: rendimiento mejorado y diseño renovado

Nintendo presenta la Switch 2, una evolución de su consola híbrida con hardware potenciado y diseño actualizado, manteniendo su
Zuhause oder unterwegs: Mit der Switch 2 lässt sich überall daddeln. Información de autor no disponible / Frankfurter Allgemeine Zeitung (FAZ)

Rodrigo Paz propone flota aérea y bonos de carbono contra incendios

El candidato del PDC plantea generar $15.000 millones en 25 años con bonos verdes y una flota aérea antiincendios
Imagen sin título Información de autor no disponible / Unitel Digital

Falta de dólares paraliza helicópteros contra incendios en Tarija

El gobierno admite que los helicópteros para combatir incendios en Tarija están inoperativos por falta de repuestos, atribuyendo la
Imagen sin título Información de autor no disponible / Unitel Digital

Tuto Quiroga busca pacto de dos tercios para reformas en Bolivia

Jorge ‘Tuto’ Quiroga propone acuerdos parlamentarios con dos tercios para reformas constitucionales, buscando apoyo de Rodrigo Paz Pereira en
El candidato Jorge Tuto Quiroga durante su llegada al debate del TSE. APG / Unitel Digital

Arce admite que no entregará todas las obras antes de finalizar su mandato

El presidente boliviano Luis Arce reconoce que solo entregará 200 obras diarias hasta noviembre, en medio de una crisis
Luis Arce. Foto: Unitel Información de autor no disponible / ANF

Samuel y Tuto lideran encuesta electoral a 15 días de comicios

Doria Medina (24,5%) y Quiroga (22,9%) encabezan la intención de voto según encuesta de Spie Consulting, con un 25%
Samuel, Tuto y Rodrigo se encuentran en los tres primeros lugares Información de autor no disponible / ANF

Debate presidencial en Santa Cruz a dos semanas de elecciones

Ocho candidatos presidenciales debatieron propuestas sobre democracia, medioambiente y derechos humanos en un evento organizado por el TSE para
Debate presidencial organizado por el TSE Alianza Unidad / Unitel Digital

Candidatos intercambian apodos en debate presidencial boliviano

Eduardo Del Castillo (MAS) y Samuel Doria Medina (Unidad) protagonizaron un cruce de apodos y acusaciones durante el debate
Imagen sin título Información de autor no disponible / Unitel Digital

Tuto cuestiona a Andrónico por casos sin justicia en debate presidencial

Tuto Quiroga interpeló a Andrónico Rodríguez sobre casos emblemáticos sin resolver, como el Hotel Las Américas y los esposos
Imagen sin título Información de autor no disponible / Unitel Digital

Juez ordena prisión para Ramiro Cucho por conflicto en Llallagua

El líder evista Ramiro Cucho fue enviado a prisión preventiva por incumplir su arresto domiciliario y estar vinculado a
Dirigente evista, Ramiro Cucho. ARCHIVO-APG / ERBOL

Doria Medina acusa a Del Castillo de secuestrar a Camacho en debate

Samuel Doria Medina acusó a Eduardo Del Castillo de secuestrar a Luis Fernando Camacho durante el debate presidencial organizado
Eduardo Del Castillo (izquierda) y Samuel Doria Medina durante el debate Información de autor no disponible / Unitel Digital

Debate presidencial por detención de Evo Morales enfrenta a candidatos

Candidatos Reyes Villa y Aracena chocan en debate por estrategias opuestas para detener a Evo Morales: operativo militar vs.
Imagen sin título Información de autor no disponible / Unitel Digital