Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.
TechCrunch
Representación de un cerebro formado por circuitos electrónicos iluminados sobre un fondo azul.
Ilustración de un cerebro definido por patrones de circuitos resplandecientes en un entorno azul.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

El cuerpo fue llevado a la morgue judicial.

Hallan el cuerpo de una mujer cerca de un basurero en El Alto

Imagen sin título

Panamá ofrece mediar entre EE.UU. y Venezuela y acoger temporalmente a miembros del régimen

El escudo protector sobre el reactor nuclear de Chernóbil.

El escudo de Chernóbil pierde su función de contención tras un ataque con dron

Imagen sin título

Grave incidente en el aeropuerto de Heathrow provoca heridos y caos en el transporte

Imagen sin título

Mujer y niño fallecen en un incendio doméstico en el condado de Offaly

Imagen sin título

Transporte pesado anuncia proceso penal contra exministro Montaño por mal estado de carreteras

Imagen sin título

Diputados aprueban créditos por 680 millones de dólares para Bolivia

El economista Mauricio Ríos durante una entrevista en Correo del Sur Radio.

Economista cuestiona la parálisis del gobierno de Paz frente a la crisis económica

Operador Moisés Osina cruza un río con la maleta biométrica para llegar a Puma Ckasa, Culpina.

Empadronamiento para subnacionales 2026 arranca con baja afluencia y problemas logísticos

Imagen sin título

El asaí se consolida como motor de la bioeconomía amazónica en el Foro Soluciones desde el Bosque

Imagen sin título

El evismo anunciará su sigla electoral el 18 de diciembre en Entre Ríos

Imagen sin título

Juez dicta cuatro meses de detención preventiva para exdiputada Lidia Patty