Estudio sugiere que modelos de OpenAI «memorizaron» contenido con derechos de autor
GPT-4 mostró signos de haber memorizado fragmentos de libros y artículos protegidos. Una investigación de tres universidades analizó cómo los modelos de IA reproducen datos de entrenamiento. El hallazgo refuerza las demandas contra OpenAI por uso no autorizado de obras.
«Palabras improbables» delatan la memorización
Investigadores de la Universidad de Washington, Copenhague y Stanford desarrollaron un método para detectar contenido memorizado. Se basan en términos estadísticamente improbables («alta sorpresa») dentro de un contexto, como «radar» en una frase cotidiana. Al enmascarar estas palabras, pidieron a los modelos de OpenAI que las completaran. Si acertaban, indicaría que los memorizaron durante su entrenamiento.
Resultados concretos
Las pruebas mostraron que GPT-4 reprodujo fragmentos de libros de ficción populares, incluidos algunos del conjunto de datos BookMIA (muestras de ebooks protegidos). También identificaron memorización de artículos de The New York Times, aunque en menor medida. «Esto revela datos polémicos en el entrenamiento», señaló Abhilasha Ravichander, coautora del estudio.
OpenAI entre demandas y lobby
La compañía enfrenta demandas de autores y programadores por usar sus obras sin permiso. OpenAI alega «uso legítimo», pero los demandantes argumentan que la ley estadounidense no contempla excepciones para datos de entrenamiento. Paralelamente, la empresa presiona para que se flexibilicen las normas sobre copyright en IA, aunque ofrece mecanismos para que los titulares excluyan sus contenidos.
Un debate que viene de lejos
Los modelos de IA generativa aprenden patrones de grandes volúmenes de datos, lo que en ocasiones deriva en réplicas literales. Casos previos incluyen imágenes basadas en fotogramas de películas o textos plagiados de noticias. La industria discute cómo equilibrar innovación y derechos de propiedad intelectual.
Transparencia, la asignatura pendiente
El estudio subraya la necesidad de auditar los modelos para garantizar su fiabilidad. Los investigadores reclaman mayor claridad sobre los datos de entrenamiento, mientras OpenAI mantiene su postura de limitar el acceso a esa información. El impacto legal de estos hallazgos podría definir el futuro del desarrollo de IA.