Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.
TechCrunch
Representación de un cerebro formado por circuitos electrónicos iluminados sobre un fondo azul.
Ilustración de un cerebro definido por patrones de circuitos resplandecientes en un entorno azul.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

Candidatos intercambian apodos en debate presidencial boliviano

Eduardo Del Castillo (MAS) y Samuel Doria Medina (Unidad) protagonizaron un cruce de apodos y acusaciones durante el debate
Imagen sin título Información de autor no disponible / Unitel Digital

Tuto cuestiona a Andrónico por casos sin justicia en debate presidencial

Tuto Quiroga interpeló a Andrónico Rodríguez sobre casos emblemáticos sin resolver, como el Hotel Las Américas y los esposos
Imagen sin título Información de autor no disponible / Unitel Digital

Juez ordena prisión para Ramiro Cucho por conflicto en Llallagua

El líder evista Ramiro Cucho fue enviado a prisión preventiva por incumplir su arresto domiciliario y estar vinculado a
Dirigente evista, Ramiro Cucho. ARCHIVO-APG / ERBOL

Doria Medina acusa a Del Castillo de secuestrar a Camacho en debate

Samuel Doria Medina acusó a Eduardo Del Castillo de secuestrar a Luis Fernando Camacho durante el debate presidencial organizado
Eduardo Del Castillo (izquierda) y Samuel Doria Medina durante el debate Información de autor no disponible / Unitel Digital

Debate presidencial por detención de Evo Morales enfrenta a candidatos

Candidatos Reyes Villa y Aracena chocan en debate por estrategias opuestas para detener a Evo Morales: operativo militar vs.
Imagen sin título Información de autor no disponible / Unitel Digital

Andrónico Rodríguez respalda reelección limitada en debate del TSE

El candidato de Alianza Popular apoya dos mandatos máximos en el debate presidencial, alineándose con el fallo del TCP
Imagen sin título Información de autor no disponible / Unitel Digital

Aracena propone referendo para intervención militar en conflictos

El candidato Pavel Aracena plantea un referendo para autorizar a las FFAA a intervenir en bloqueos políticos, avasallamientos y
Imagen sin título Información de autor no disponible / Unitel Digital

Doria Medina rechaza que Bolivia sea un Estado fallido y critica a políticos

El candidato de Unidad responsabiliza a la clase política de la crisis actual en Bolivia, destacando mala gestión histórica
Samuel Doria Medina, candidato de la alianza Unidad UNITEL / Unitel Digital

Candidato del MAS propone revolución en la Justicia para 2028

Eduardo del Castillo, candidato del MAS, plantea un cambio radical en el sistema judicial boliviano con nuevas autoridades y
Eduardo del Castillo durante su intervención en el debate. Información de autor no disponible / Unitel Digital

Rodrigo Paz propone reformar la Justicia con cambios constitucionales

El candidato presidencial propone eliminar el Ministerio de Justicia y crear una comisión para modificar la Constitución, enfatizando transparencia
Rodrigo Paz Pereira en el debate del TSE Información de autor no disponible / Unitel Digital

Jhonny Fernández exige nuevos actores políticos en debate presidencial

El candidato Jhonny Fernández critica la presencia de los mismos actores políticos en el proceso electoral y exige una
Imagen sin título Información de autor no disponible / Unitel Digital

Tuto Quiroga propone reforma constitucional para marzo 2026

El candidato presidencial Jorge ‘Tuto’ Quiroga anunció una reforma constitucional para marzo de 2026, condicionada a obtener dos tercios
Imagen sin título Información de autor no disponible / Unitel Digital