Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.
TechCrunch
Representación de un cerebro formado por circuitos electrónicos iluminados sobre un fondo azul.
Ilustración de un cerebro definido por patrones de circuitos resplandecientes en un entorno azul.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

Bolivia rechaza informe de EEUU sobre narcotráfico y destaca récord de incautaciones

Bolivia descalifica informe antidrogas de EEUU y destaca récord histórico de 35 toneladas incautadas en el último año.
Un efectivo de la policía en la presentación de la droga incautada. / Noé Portugal / ABI

Plazo para solicitar certificado de exención por no votar vence este martes

Gestiona tu certificado de exención por no votar antes del martes 16 de septiembre para evitar multas. Requisitos y
Imagen referencial de documentación electoral. / Archivo Sucre/CORREO DEL SUR DIGITAL / Correo del Sur

Acusan a Starmer de mentir sobre el embajador británico vinculado a Epstein

La oposición acusa a Keir Starmer de ocultar información sobre el exembajador Peter Mandelson y su vínculo con Jeffrey
Donald Trump y Peter Mandelson en la Oficina Oval en mayo de 2025. / Reuters/AFP / Clarín

Fiscal de Utah acusa de homicidio agravado a Tyler Robinson por asesinato de Charlie Kirk

El fiscal Jeff Gray presenta cargos de homicidio agravado capital contra Tyler Robinson por el asesinato del activista conservador
Tyler Robinson tras su detención. Está acusado de homicidio agravado. / EFE / EFE y AP

Egipto e Israel acuerdan gasoducto para aliviar crisis energética

Acuerdo energético entre Egipto e Israel para suministrar 600 millones de pies cúbicos diarios de gas mediante el gasoducto
Imagen sin título / Información de autor no disponible / Africa Intelligence Brief

diputado cuéllar pide arraigo contra arce para evitar su salida del país

Diputado del MAS solicita arraigo contra presidente Luis Arce para evitar que abandone el país, basándose en la Ley
el diputado del mas rolando cuéllar en la fiscalía general, en sucre. / Correo del Sur / Correo del Sur

España eleva el tono contra Israel por ofensiva en Gaza y palabras de canciller

España convoca a diplomática israelí y anuncia que condiciona su participación en Eurovisión 2026 a la no inclusión de
El presidente del gobierno de España, Pedro Sánchez, critica la ofensiva de Israel en Gaza. / EFE / Clarín

aprehenden a un hombre por provocar incendios en ascensión de guarayos

Vecinos detuvieron a un hombre por provocar incendios en Ascensión de Guarayos, mientras el COEM declara estado de emergencia
el aprehendido aguarda su comparecencia ante el juez en la carceleta de ascensión de guarayos / Información de autor no disponible / ELDEBER.com.bo

Fábricas de EE.UU. se estancan mientras el consumo mantiene el crecimiento

La producción industrial de EEUU crece levemente un 0,1% en agosto mientras las ventas minoristas se disparan un 0,6%,
Imagen sin título / Información de autor no disponible / Información de la fuente de la imagen no disponible

Lara acusa de fraude a Tuto y amenaza con salir a defender el voto

El candidato vicepresidencial Edmundo Lara anuncia movilizaciones ante posible fraude electoral en el balotaje boliviano.
El candidato a la Vicepresidencia por el PDC, Edmand Lara. / Archivo / Diario Correo del Sur

putin agradece a delegaciones extranjeras por participar en ejercicios zapad-2025

Putin reconoce en Nizhny Novgorod la colaboración extranjera en las maniobras militares conjuntas Zapad-2025.
vladimir putin durante su visita al campo de entrenamiento / Información de autor no disponible / clarín

Concejo Municipal de Santa Cruz distingue a hijos ilustres en aniversario

El Concejo Municipal de Santa Cruz distingue a 19 personalidades e instituciones por sus aportes al municipio en el
Imagen sin título / Información de autor no disponible / ELDEBER.com.bo