EleutherAI lanza dataset para entrenar IA con licencia

EleutherAI publica 8TB de textos bajo dominio público y licencias, ofreciendo una alternativa legal para entrenar modelos de IA.
TechCrunch

EleutherAI lanza un gran conjunto de datos para entrenar IA con licencia

La organización publica 8 terabytes de textos bajo dominio público y licenciados. El dataset, llamado Common Pile v0.1, busca ofrecer una alternativa legal a los modelos actuales. Se desarrolló en colaboración con startups y universidades durante dos años.

«Transparencia frente a los litigios por copyright»

EleutherAI, una organización de investigación en IA, presentó el Common Pile v0.1, un conjunto de datos que incluye 300.000 libros de dominio público y contenido con licencia. «Los juicios han reducido la transparencia en la industria», señaló Stella Biderman, directora ejecutiva. El objetivo es evitar el uso de material protegido sin permiso, práctica común en empresas como OpenAI.

Modelos competitivos con datos legales

Con este dataset, EleutherAI entrenó dos modelos de IA: Comma v0.1-1T y Comma v0.1-2T, de 7.000 millones de parámetros cada uno. Según la organización, su rendimiento es comparable al de modelos como Llama de Meta en tareas de programación y matemáticas. «Los datos con licencia no limitan el rendimiento», afirmó Biderman.

Colaboración y acceso abierto

El proyecto contó con la participación de Poolside, Hugging Face y la Universidad de Toronto. El dataset está disponible en GitHub y la plataforma de Hugging Face. EleutherAI usó Whisper, de OpenAI, para transcribir contenido de audio y planea lanzar más conjuntos de datos abiertos en el futuro.

De polémicas a soluciones

EleutherAI reconoció que su anterior dataset, The Pile, incluía material con copyright, lo que generó críticas legales. La nueva iniciativa busca corregir ese enfoque y promover prácticas éticas en el entrenamiento de IA.

Un paso hacia modelos más transparentes

El Common Pile v0.1 demuestra que es posible desarrollar IA competitiva sin depender de datos protegidos. Su impacto dependerá de la adopción por parte de investigadores y empresas en un sector marcado por los litigios.

Candidatos intercambian apodos en debate presidencial boliviano

Eduardo Del Castillo (MAS) y Samuel Doria Medina (Unidad) protagonizaron un cruce de apodos y acusaciones durante el debate
Imagen sin título Información de autor no disponible / Unitel Digital

Tuto cuestiona a Andrónico por casos sin justicia en debate presidencial

Tuto Quiroga interpeló a Andrónico Rodríguez sobre casos emblemáticos sin resolver, como el Hotel Las Américas y los esposos
Imagen sin título Información de autor no disponible / Unitel Digital

Juez ordena prisión para Ramiro Cucho por conflicto en Llallagua

El líder evista Ramiro Cucho fue enviado a prisión preventiva por incumplir su arresto domiciliario y estar vinculado a
Dirigente evista, Ramiro Cucho. ARCHIVO-APG / ERBOL

Doria Medina acusa a Del Castillo de secuestrar a Camacho en debate

Samuel Doria Medina acusó a Eduardo Del Castillo de secuestrar a Luis Fernando Camacho durante el debate presidencial organizado
Eduardo Del Castillo (izquierda) y Samuel Doria Medina durante el debate Información de autor no disponible / Unitel Digital

Debate presidencial por detención de Evo Morales enfrenta a candidatos

Candidatos Reyes Villa y Aracena chocan en debate por estrategias opuestas para detener a Evo Morales: operativo militar vs.
Imagen sin título Información de autor no disponible / Unitel Digital

Andrónico Rodríguez respalda reelección limitada en debate del TSE

El candidato de Alianza Popular apoya dos mandatos máximos en el debate presidencial, alineándose con el fallo del TCP
Imagen sin título Información de autor no disponible / Unitel Digital

Aracena propone referendo para intervención militar en conflictos

El candidato Pavel Aracena plantea un referendo para autorizar a las FFAA a intervenir en bloqueos políticos, avasallamientos y
Imagen sin título Información de autor no disponible / Unitel Digital

Doria Medina rechaza que Bolivia sea un Estado fallido y critica a políticos

El candidato de Unidad responsabiliza a la clase política de la crisis actual en Bolivia, destacando mala gestión histórica
Samuel Doria Medina, candidato de la alianza Unidad UNITEL / Unitel Digital

Candidato del MAS propone revolución en la Justicia para 2028

Eduardo del Castillo, candidato del MAS, plantea un cambio radical en el sistema judicial boliviano con nuevas autoridades y
Eduardo del Castillo durante su intervención en el debate. Información de autor no disponible / Unitel Digital

Rodrigo Paz propone reformar la Justicia con cambios constitucionales

El candidato presidencial propone eliminar el Ministerio de Justicia y crear una comisión para modificar la Constitución, enfatizando transparencia
Rodrigo Paz Pereira en el debate del TSE Información de autor no disponible / Unitel Digital

Jhonny Fernández exige nuevos actores políticos en debate presidencial

El candidato Jhonny Fernández critica la presencia de los mismos actores políticos en el proceso electoral y exige una
Imagen sin título Información de autor no disponible / Unitel Digital

Tuto Quiroga propone reforma constitucional para marzo 2026

El candidato presidencial Jorge ‘Tuto’ Quiroga anunció una reforma constitucional para marzo de 2026, condicionada a obtener dos tercios
Imagen sin título Información de autor no disponible / Unitel Digital