Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.
TechCrunch
Representación de un cerebro formado por circuitos electrónicos iluminados sobre un fondo azul.
Ilustración de un cerebro definido por patrones de circuitos resplandecientes en un entorno azul.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

Adolescente en estado crítico tras apuñalamiento en colegio de Warnes

Una adolescente sufre más de 20 heridas por arma blanca en un ataque dentro de su colegio en Warnes.
La Policía realiza una investigación del caso UNITEL / Unitel Digital

Detención del novio por feminicidio de joven en Cliza

Wilber G.D. fue enviado a prisión preventiva por la muerte de Evelyn Andia. La Fiscalía presentó pruebas forenses que
Imagen sin título Información de autor no disponible / Información de la fuente de la imagen no disponible

Candidatos opositores coinciden en el 90% de sus planes económicos

Samuel Doria Medina y Jorge Tuto Quiroga priorizan redistribución de recursos y seguridad alimentaria en un foro organizado por
Los candidatos de oposición durante el foro de cívicos APG / Unitel Digital

TSE organiza primer debate presidencial con ocho candidatos

Ocho candidatos debatirán sobre democracia, medio ambiente y desarrollo social en un evento transmitido por UNITEL, dirigido a votantes
Imagen sin título Información de autor no disponible / UNITEL

Feminicidio en Sacaba: mujer muere quemada por su cuñado

Aida Cruz, de 26 años, falleció tras sufrir quemaduras en el 70% de su cuerpo durante un ataque en
Aida Cruz estuvo internada en el Hospital Viedma de Cochabamba UNITEL / UNITEL

Helicópteros como transporte público en Estocolmo en invierno

Estocolmo implementa helicópteros como transporte público en invierno para conectar islas del archipiélago cuando el hielo bloquea las rutas
Idilio sueco: cabaña de madera en el archipiélago de Estocolmo Picture Alliance / F.A.Z.

TJUE endurece condiciones para listar países de origen seguro

El Tribunal de Justicia de la UE exige transparencia en las listas de países seguros para asilo, afectando procedimientos
Un campo de migrantes italianos en Albania Información de autor no disponible / Reuters

Suecia condena a cadena perpetua a yihadista por asesinato de piloto jordano

Osama Krayem fue sentenciado por su participación en el asesinato del piloto Maaz al-Kasasbeh, quemado vivo por el Estado
Policías abandonan el tribunal de Estocolmo tras la condena de Osama Krayem el 4.6.2025 Información de autor no disponible / AFP

Choferes y gremiales de El Alto anuncian paro por falta de combustible

Choferes y gremiales de El Alto iniciarán protestas escalonadas desde el próximo lunes, exigiendo abastecimiento de combustible y freno
Imagen sin título Información de autor no disponible / APG

Emapa asegura entrega de harina subvencionada pese a paro de panaderos

La empresa estatal Emapa garantiza la distribución de harina subvencionada, mientras panificadores denuncian retrasos y deudas pendientes desde enero.
La venta de pan fue irregular en la ciudad de La Paz. APG / ERBOL

Facción ‘evista’ apoya a Andrónico Rodríguez en elecciones

La Regional Urbana de Evo Pueblo en Santa Cruz rompe con la línea oficial del MAS y anuncia su
Imagen sin título Información de autor no disponible / URGENTE.BO

Hassenteufel garantiza elecciones sin sanciones por voto nulo o bajas

El presidente interino del TSE asegura que las elecciones del 17 de agosto no penalizarán a partidos que renuncien
Óscar Hassenteufel, titular interino del TSE, de regreso tras su baja médica. Información de autor no disponible / APG