EleutherAI lanza dataset para entrenar IA con licencia

EleutherAI publica 8TB de textos bajo dominio público y licencias, ofreciendo una alternativa legal para entrenar modelos de IA.
TechCrunch

EleutherAI lanza un gran conjunto de datos para entrenar IA con licencia

La organización publica 8 terabytes de textos bajo dominio público y licenciados. El dataset, llamado Common Pile v0.1, busca ofrecer una alternativa legal a los modelos actuales. Se desarrolló en colaboración con startups y universidades durante dos años.

«Transparencia frente a los litigios por copyright»

EleutherAI, una organización de investigación en IA, presentó el Common Pile v0.1, un conjunto de datos que incluye 300.000 libros de dominio público y contenido con licencia. «Los juicios han reducido la transparencia en la industria», señaló Stella Biderman, directora ejecutiva. El objetivo es evitar el uso de material protegido sin permiso, práctica común en empresas como OpenAI.

Modelos competitivos con datos legales

Con este dataset, EleutherAI entrenó dos modelos de IA: Comma v0.1-1T y Comma v0.1-2T, de 7.000 millones de parámetros cada uno. Según la organización, su rendimiento es comparable al de modelos como Llama de Meta en tareas de programación y matemáticas. «Los datos con licencia no limitan el rendimiento», afirmó Biderman.

Colaboración y acceso abierto

El proyecto contó con la participación de Poolside, Hugging Face y la Universidad de Toronto. El dataset está disponible en GitHub y la plataforma de Hugging Face. EleutherAI usó Whisper, de OpenAI, para transcribir contenido de audio y planea lanzar más conjuntos de datos abiertos en el futuro.

De polémicas a soluciones

EleutherAI reconoció que su anterior dataset, The Pile, incluía material con copyright, lo que generó críticas legales. La nueva iniciativa busca corregir ese enfoque y promover prácticas éticas en el entrenamiento de IA.

Un paso hacia modelos más transparentes

El Common Pile v0.1 demuestra que es posible desarrollar IA competitiva sin depender de datos protegidos. Su impacto dependerá de la adopción por parte de investigadores y empresas en un sector marcado por los litigios.