| Inteligencia Artificial | Tecnología |

EleutherAI lanza dataset para entrenar IA con licencia

TechCrunch

EleutherAI releases massive AI training dataset of licensed and open domain text | TechCrunch
Kyle Wiggers
TechCrunch
inglés
Estados Unidos
en-US
Publicado el: 1749304186
1749304186
2025-06-07T13:49:46Z
2025-06-06T17:39:59Z
2025-06-06T20:33:12Z
https://techcrunch.com/2025/06/06/eleutherai-releases-massive-ai-training-dataset-of-licensed-and-open-domain-text

EleutherAI publica 8TB de textos bajo dominio público y licencias, ofreciendo una alternativa legal para entrenar modelos de IA.

EleutherAI lanza un gran conjunto de datos para entrenar IA con licencia

La organización publica 8 terabytes de textos bajo dominio público y licenciados. El dataset, llamado Common Pile v0.1, busca ofrecer una alternativa legal a los modelos actuales. Se desarrolló en colaboración con startups y universidades durante dos años.

«Transparencia frente a los litigios por copyright»

EleutherAI, una organización de investigación en IA, presentó el Common Pile v0.1, un conjunto de datos que incluye 300.000 libros de dominio público y contenido con licencia. «Los juicios han reducido la transparencia en la industria», señaló Stella Biderman, directora ejecutiva. El objetivo es evitar el uso de material protegido sin permiso, práctica común en empresas como OpenAI.

Modelos competitivos con datos legales

Con este dataset, EleutherAI entrenó dos modelos de IA: Comma v0.1-1T y Comma v0.1-2T, de 7.000 millones de parámetros cada uno. Según la organización, su rendimiento es comparable al de modelos como Llama de Meta en tareas de programación y matemáticas. «Los datos con licencia no limitan el rendimiento», afirmó Biderman.

Colaboración y acceso abierto

El proyecto contó con la participación de Poolside, Hugging Face y la Universidad de Toronto. El dataset está disponible en GitHub y la plataforma de Hugging Face. EleutherAI usó Whisper, de OpenAI, para transcribir contenido de audio y planea lanzar más conjuntos de datos abiertos en el futuro.

De polémicas a soluciones

EleutherAI reconoció que su anterior dataset, The Pile, incluía material con copyright, lo que generó críticas legales. La nueva iniciativa busca corregir ese enfoque y promover prácticas éticas en el entrenamiento de IA.

Un paso hacia modelos más transparentes

El Common Pile v0.1 demuestra que es posible desarrollar IA competitiva sin depender de datos protegidos. Su impacto dependerá de la adopción por parte de investigadores y empresas en un sector marcado por los litigios.

Post Views: 54

| Delitos sexuales |

septiembre 17, 2025

Arce se abstiene de declarar en la Fiscalía por caso de presunto abandono de mujer embarazada

El presidente Luis Arce se abstuvo de declarar en la Fiscalía de Cochabamba por el caso de presunto abandono

| Política |

septiembre 17, 2025

Ministro de Minería advierte «mano dura» contra avasalladores de minas en Potosí

El ministro de Minería anuncia medidas contundentes contra cooperativistas que tomaron violentamente una mina en Potosí.

| Política |

septiembre 17, 2025

Arce acusa a Quiroga de ser agente de la CIA y simular ser del pueblo

El diputado Héctor Arce acusa a Jorge Quiroga de ser agente de la CIA y simular beber chicha para

| Corrupción y Ética |

septiembre 17, 2025

TSE rechaza acusaciones de fraude electoral del PDC

El TSE desmiente las acusaciones de fraude electoral del PDC y reafirma la transparencia del proceso.

| Corrupción y Ética |

septiembre 17, 2025

diputado exoficialista pide arraigo y embargo de bienes para arce y su gabinete

Un diputado solicita arraigo por 90 días para el presidente Luis Arce y su gabinete tras finalizar su mandato,

| Política |

septiembre 17, 2025

Diputado del PDC duda de la posibilidad de sentar presencia estatal en «México Chico»

Diputado del PDC declara inviable establecer control estatal en la región de México Chico, Norte Potosí, debido a actividades

| Mundo |

septiembre 17, 2025

Bolivia rechaza informe de EEUU que lo descertifica en lucha antidrogas

El gobierno boliviano rechaza la descertificación de EEUU en lucha antidrogas, alegando carencia de respaldo internacional pese a reconocimientos

| Corrupción y Ética |

septiembre 17, 2025

Lara acusa sin pruebas de fraude a Quiroga y Copa en la campaña electoral

El candidato vicepresidencial del PDC realiza acusaciones de fraude electoral sin presentar evidencias, generando tensión días antes del balotaje.

| Corrupción y Ética |

septiembre 17, 2025

Lara acusa a Tuto Quiroga de planear fraude electoral en Bolivia

El candidato vicepresidencial Edmundo Lara acusa a Jorge Tuto Quiroga de planear un fraude electoral y anuncia movilizaciones para

| Política |

septiembre 17, 2025

TSE sortea 213.000 jurados e imprime papeletas para segunda vuelta electoral

El Tribunal Supremo Electoral sortea 213.000 jurados e imprime más de 8 millones de papeletas con medidas de seguridad

| Salud |

septiembre 17, 2025

Fiscalía confirma que Naoki Ishida murió por broncoaspiración

La fiscalía confirma que Naoki Ishida, vocalista de Explosión Cumbiera, falleció por broncoaspiración, descartando signos de violencia o participación

| Política |

septiembre 16, 2025

ANP alerta sobre sanciones a radios que amenazan su supervivencia

La ANP advierte sobre multas desproporcionadas a radioemisoras por errores en propaganda electoral que amenazan su continuidad.