OpenAI acusado de usar libros de pago para entrenar GPT-4o

Un estudio revela que GPT-4o reconoce contenido bajo suscripción de O'Reilly sin licencia, según el AI Disclosures Project. OpenAI no ha respondido a las acusaciones.
TechCrunch
Pantalla con líneas de código binario y un logotipo en color azul.
Imagen que presenta una pantalla llena de líneas de código binario en azul y un logotipo prominente.

Investigadores acusan a OpenAI de entrenar sus modelos con libros de pago de O’Reilly

Un estudio sugiere que GPT-4o reconoce contenido bajo suscripción sin licencia previa. La organización AI Disclosures Project analizó 34 libros técnicos y detectó patrones de uso en el modelo más avanzado de la compañía. OpenAI no se ha pronunciado al respecto.

«Reconocimiento elevado de contenido no público»

El informe del AI Disclosures Project, cofundado por Tim O’Reilly, señala que GPT-4o identifica fragmentos de libros con paywall mejor que sus predecesores. La técnica DE-COP, empleada en el estudio, sugiere que el modelo tuvo acceso previo a este material. «No es una prueba irrefutable, pero los indicios son claros», admiten los autores.

Método y hallazgos clave

Analizaron 13.962 extractos de 34 libros técnicos publicados antes y después de las fechas límite de entrenamiento. GPT-4o mostró «mayor probabilidad de reconocimiento» en textos bajo suscripción, frente a versiones públicas o modelos antiguos como GPT-3.5 Turbo. Los investigadores descartaron que la mejora se deba solo a capacidades avanzadas de inferencia.

OpenAI y la polémica de los datos

La compañía carece de acuerdos con O’Reilly Media, según el estudio. Aunque OpenAI tiene licencias con otras editoriales y permite opciones de exclusión, el informe alimenta las críticas por el uso de material protegido. Actualmente, la empresa enfrenta demandas en EE.UU. por prácticas similares.

Búsqueda de datos de calidad

OpenAI ha contratado a periodistas y expertos para refinar sus modelos, reflejando una tendencia en la industria de la IA. El agotamiento de fuentes públicas y los riesgos de usar datos sintéticos explicarían la posible dependencia de contenido restringido.

Un escenario legal enrevesado

El texto recuerda que OpenAI aboga por regulaciones más flexibles sobre derechos de autor. Sin embargo, casos como este complican su posición jurídica, pese a que el estudio no evaluó sus modelos más recientes (GPT-4.5 u o3-mini).

¿Hacia dónde va el debate?

La investigación refuerza las dudas sobre el origen de los datos de entrenamiento en IA. Aunque el método tiene limitaciones, el patrón detectado en GPT-4o podría influir en futuras regulaciones y demandas contra la compañía.

Doce incendios forestales activos en varios municipios de Santa Cruz

Doce incendios forestales activos en siete municipios de Santa Cruz mantienen en alerta roja a la región.
Imagen sin título / Información de autor no disponible / URGENTE.BO

Bolivia prevé su incorporación plena al Mercosur para agosto de 2028

Bolivia confirmó su incorporación plena al Mercosur para agosto de 2028, culminando un proceso histórico de integración regional.
Reunión de Ministros de Relaciones Exteriores del Mercosur. / CANCILLERÍA / OXIGENO.BO

senado remite a comisión proyecto de diferimiento de créditos tras rechazo bancario

El Senado deriva a comisión un proyecto que difiere créditos y suspende embargos por 6 meses, generando rechazo bancario.
imagen referencial de dinero en diferentes cortes / Información de autor no disponible / URGENTE.BO

Alfredo Romero Dávalos será declarado Hijo Ilustre de Santa Cruz

El cardiólogo Alfredo Romero Dávalos es declarado Hijo Ilustre por su trayectoria profesional y labor social en Santa Cruz
Alfredo Romero Dávalos, cardiólogo distinguido como Hijo Ilustre / Información de autor no disponible / EL DEBER

El rey de España rompe su neutralidad y denuncia la crisis «insoportable» en Gaza

El Rey Felipe VI rompe la neutralidad tradicional de la Corona española para denunciar la insoportable crisis humanitaria en
El rey Felipe VI de España durante la recepción a una representación de la colectividad española en El Cairo, Egipto / EFE/Juanjo Martín / Clarín

tse inicia impresión de más de 8 millones de papeletas para balotaje

El Tribunal Supremo Electoral de Bolivia avanza en la impresión y distribución de 8 millones de papeletas para la
prototipo de la papeleta de sufragio de la segunda vuelta / ABI / ABI

revelan carta sellada del fundador de checoslovaquia tras 92 años

Descubre el contenido de la carta sellada en 1937 por el fundador de Checoslovaquia, abierta tras 92 años de
carta de tomáš garrigue masaryk / khalil baalbaki / clarín

ofensiva israelí en gaza continúa mientras familias de rehenes esperan

El Ejército israelí avanza sobre la ciudad de Gaza en una operación militar a gran escala para localizar miembros
soldado israelí en el memorial por las víctimas de hamas en reim, israel / clarín / clarín

santa cruz registra índice de calidad de aire regular por segundo día consecutivo

La calidad del aire en Santa Cruz se mantiene en nivel regular con 65 puntos ICA debido a los
Imagen sin título / Gobernación / ELDEBER.com.bo

TSE presenta el modelo de papeleta para la segunda vuelta presidencial

El TSE muestra el diseño oficial de la papeleta para el balotaje presidencial, más pequeño y con medidas de
La papeleta presentada por el TSE. / Información de autor no disponible / Correo del Sur

Estudiante de 12 años provoca pánico al ingresar con arma a colegio en Santa Cruz

Un estudiante de 12 años ingresó con un arma a su colegio en Santa Cruz y amenazó a un
La Policía investiga el caso / Información de autor no disponible / EL DEBER

Concepción celebra los 110 años de la provincia Ñuflo de Chávez con paseata cultural

La provincia de Ñuflo de Chávez conmemora sus 110 años con una gran paseata cultural en Concepción, reuniendo a
Decenas de personas se congregan para disfrutar de danzas, música y expresiones culturales. / José Manuel Huanca / EL DEBER