| Inteligencia Artificial | Privacidad y seguridad |

OpenAI memorizó contenido con derechos de autor, según estudio

TechCrunch

OpenAI's models 'memorized' copyrighted content, new study suggests | TechCrunch
Kyle Wiggers
TechCrunch
en_US
Publicado el: 1743792131000
1743943021
https://techcrunch.com/2025/04/04/openais-models-memorized-copyrighted-content-new-study-suggests

Investigación revela que GPT-4 reproduce fragmentos de libros y artículos protegidos, reforzando demandas por uso no autorizado de obras en entrenamiento de IA.

Estudio sugiere que modelos de OpenAI «memorizaron» contenido con derechos de autor

GPT-4 mostró signos de haber memorizado fragmentos de libros y artículos protegidos. Una investigación de tres universidades analizó cómo los modelos de IA reproducen datos de entrenamiento. El hallazgo refuerza las demandas contra OpenAI por uso no autorizado de obras.

«Palabras improbables» delatan la memorización

Investigadores de la Universidad de Washington, Copenhague y Stanford desarrollaron un método para detectar contenido memorizado. Se basan en términos estadísticamente improbables («alta sorpresa») dentro de un contexto, como «radar» en una frase cotidiana. Al enmascarar estas palabras, pidieron a los modelos de OpenAI que las completaran. Si acertaban, indicaría que los memorizaron durante su entrenamiento.

Resultados concretos

Las pruebas mostraron que GPT-4 reprodujo fragmentos de libros de ficción populares, incluidos algunos del conjunto de datos BookMIA (muestras de ebooks protegidos). También identificaron memorización de artículos de The New York Times, aunque en menor medida. «Esto revela datos polémicos en el entrenamiento», señaló Abhilasha Ravichander, coautora del estudio.

OpenAI entre demandas y lobby

La compañía enfrenta demandas de autores y programadores por usar sus obras sin permiso. OpenAI alega «uso legítimo», pero los demandantes argumentan que la ley estadounidense no contempla excepciones para datos de entrenamiento. Paralelamente, la empresa presiona para que se flexibilicen las normas sobre copyright en IA, aunque ofrece mecanismos para que los titulares excluyan sus contenidos.

Un debate que viene de lejos

Los modelos de IA generativa aprenden patrones de grandes volúmenes de datos, lo que en ocasiones deriva en réplicas literales. Casos previos incluyen imágenes basadas en fotogramas de películas o textos plagiados de noticias. La industria discute cómo equilibrar innovación y derechos de propiedad intelectual.

Transparencia, la asignatura pendiente

El estudio subraya la necesidad de auditar los modelos para garantizar su fiabilidad. Los investigadores reclaman mayor claridad sobre los datos de entrenamiento, mientras OpenAI mantiene su postura de limitar el acceso a esa información. El impacto legal de estos hallazgos podría definir el futuro del desarrollo de IA.

Post Views: 26