OpenAI memorizó contenido con derechos de autor, según estudio

Investigación revela que GPT-4 reproduce fragmentos de libros y artículos protegidos, reforzando demandas por uso no autorizado de obras en entrenamiento de IA.
TechCrunch
Manos robóticas escribiendo en una máquina de escribir con hojas de papel alrededor.
Ilustración que muestra un par de manos robóticas tecleando en una máquina de escribir azul bajo un fondo amarillo.

Estudio sugiere que modelos de OpenAI «memorizaron» contenido con derechos de autor

GPT-4 mostró signos de haber memorizado fragmentos de libros y artículos protegidos. Una investigación de tres universidades analizó cómo los modelos de IA reproducen datos de entrenamiento. El hallazgo refuerza las demandas contra OpenAI por uso no autorizado de obras.

«Palabras improbables» delatan la memorización

Investigadores de la Universidad de Washington, Copenhague y Stanford desarrollaron un método para detectar contenido memorizado. Se basan en términos estadísticamente improbables («alta sorpresa») dentro de un contexto, como «radar» en una frase cotidiana. Al enmascarar estas palabras, pidieron a los modelos de OpenAI que las completaran. Si acertaban, indicaría que los memorizaron durante su entrenamiento.

Resultados concretos

Las pruebas mostraron que GPT-4 reprodujo fragmentos de libros de ficción populares, incluidos algunos del conjunto de datos BookMIA (muestras de ebooks protegidos). También identificaron memorización de artículos de The New York Times, aunque en menor medida. «Esto revela datos polémicos en el entrenamiento», señaló Abhilasha Ravichander, coautora del estudio.

OpenAI entre demandas y lobby

La compañía enfrenta demandas de autores y programadores por usar sus obras sin permiso. OpenAI alega «uso legítimo», pero los demandantes argumentan que la ley estadounidense no contempla excepciones para datos de entrenamiento. Paralelamente, la empresa presiona para que se flexibilicen las normas sobre copyright en IA, aunque ofrece mecanismos para que los titulares excluyan sus contenidos.

Un debate que viene de lejos

Los modelos de IA generativa aprenden patrones de grandes volúmenes de datos, lo que en ocasiones deriva en réplicas literales. Casos previos incluyen imágenes basadas en fotogramas de películas o textos plagiados de noticias. La industria discute cómo equilibrar innovación y derechos de propiedad intelectual.

Transparencia, la asignatura pendiente

El estudio subraya la necesidad de auditar los modelos para garantizar su fiabilidad. Los investigadores reclaman mayor claridad sobre los datos de entrenamiento, mientras OpenAI mantiene su postura de limitar el acceso a esa información. El impacto legal de estos hallazgos podría definir el futuro del desarrollo de IA.

Fiscalía boliviana reporta 97% de feminicidas encarcelados en 2025

En 2025, Bolivia registró 49 feminicidios y 11 infanticidios, con el 97% de los agresores identificados y detenidos. La
Imagen sin título Información de autor no disponible / Erbol

Incendio en Tarija controlado en 30% sin víctimas mortales

El incendio en la cuesta de Sama, Tarija, está contenido en un 30%. Autoridades investigan tres causas posibles y
Fuego en la cuesta de Sama GOBIERNO DEPARTAMENTAL DE TARIJA / Información de la fuente de la imagen no disponible

UMOPAR desmantela dos mega laboratorios de cocaína en Cochabamba

La UMOPAR detuvo a siete personas e incautó armas y equipos en dos laboratorios de producción de cocaína en
Infraestructura hallada en el operativo antidrogas Pedro Silva / UNITEL

Adolescente apuñalada en colegio de Warnes requiere segunda operación

Una adolescente de 13 años víctima de apuñalamiento por una compañera en Warnes (Santa Cruz) sigue en estado grave
La adolescente está internada en el Hospital Japonés de Santa Cruz Información de autor no disponible / UNITEL

Accidente en carretera a los Yungas deja madre muerta y cinco hijos heridos

Una mujer falleció y nueve familiares resultaron heridos, incluyendo cinco menores, tras un accidente en la carretera a los
El equipo de Bomberos llegó hasta el lugar del hecho. Información de autor no disponible / Unitel Digital

MSC lidera el transporte marítimo mundial con el 21% del mercado

La naviera suiza MSC domina el sector con 6,7 millones de TEU, según el ranking de Alphaliner. Las 10
Foto: intersystems.com Información de autor no disponible / EL DEBER

Bolivia rehabilita vía Comarapa-Mataral con inversión de Bs 191 millones

La rehabilitación de 52,9 km de la vía Comarapa-Mataral, financiada por el BID, beneficiará a 17.000 habitantes y mejorará
Parte de la obra entregada ABI / EL DEBER

Detención preventiva de dirigente evista por muerte de policías en Llallagua

Edgar Quiruchi, dirigente evista, permanecerá en prisión durante la investigación por su presunta participación en la muerte de tres
El dirigente evista Edgar Quiruchi, deberá cumplir detención preventiva Información de autor no disponible / Unitel Digital

Samuel y Tuto lideran encuesta electoral en Bolivia 2025

Samuel Doria Medina y Jorge ‘Tuto’ Quiroga encabezan las preferencias electorales en Bolivia con menos del 25% cada uno,
Imagen sin título Información de autor no disponible / El Deber

Exministro Siles obtiene detención domiciliaria en caso Consorcio

La Sala Penal Tercera de La Paz revocó la prisión preventiva del exministro César Siles, quien permanecerá en arresto
Exministro de Justicia, César Siles. Información de autor no disponible / ANF

Dictan prisión preventiva para dirigente evista por muerte de policías

Edgar Quiruchi, dirigente evista, permanecerá detenido en Uncía acusado de participar en la emboscada donde murieron tres policías en
Imagen sin título Información de autor no disponible / Unitel Digital

Frankfurt prueba entrega de paquetes por tranvía con Amazon

Proyecto piloto en Frankfurt combina tranvías y bicicletas de carga para reducir el impacto del comercio online en el
Dibujo de un televisor antiguo con el texto 'IMAGEN NO DISPONIBLE'.