Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.
TechCrunch
Representación de un cerebro formado por circuitos electrónicos iluminados sobre un fondo azul.
Ilustración de un cerebro definido por patrones de circuitos resplandecientes en un entorno azul.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

Marco Monasterio, presidente del TED de Santa Cruz

TED Santa Cruz inicia capacitación masiva de jurados electorales en la capital

Imagen sin título

TED Cochabamba firma acuerdo con 10 partidos para debate electoral previo a comicios

Róger Mariaca, fiscal General del Estado, en conferencia de prensa.

Fiscalía boliviana confirma vigencia de sello rojo de Interpol para capturar a Sebastián Marset

Imagen sin título

Fiscal General de Bolivia detalla cinco procesos penales contra el narcotraficante Sebastián Marset

Imagen referencial del parque temático propuesto.

Candidato propone construir un parque temático de Gokú en El Alto

Imagen sin título

Comisión de Diputados rechaza por unanimidad eliminar la renta vitalicia a expresidentes

Los tres implicados fueron aprehendidos por la Policía.

Policía halla más de 300 frascos de mercurio en domicilio y vehículo en La Paz

Imagen sin título

Fiscalía activa alerta migratoria contra exjefa de Aduana por caso de escáneres

Santos Quispe en campaña política.

Asambleístas denuncian a partido de Santos Quispe por adulterar registros de militantes

Mujeres toman las calles en repudio de la violencia y por la reivindicación de sus derechos, en 2022.

Bolivia enfrenta deudas estructurales en derechos de las mujeres, alerta informe

El presidente del Tribunal Supremo Electoral (TSE), Gustavo Ávila.

El 95% de los candidatos subnacionales confirma asistencia a los debates electorales

Pleno de la Asamblea Legislativa en sesión

Presidente del TSE urge a la ALP designar vocales electorales de La Paz

📊 No hay datos disponibles para "Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto" en el período seleccionado.