| Avances científicos | Inteligencia Artificial |

Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

TechCrunch

A new, challenging AGI test stumps most AI models | TechCrunch
Maxwell Zeff
TechCrunch
en_US
Publicado el: 1742862593000
1742932637
https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

Post Views: 29

| Educación y Familia |

agosto 1, 2025

Adolescente en estado crítico tras apuñalamiento en colegio de Warnes

Una adolescente sufre más de 20 heridas por arma blanca en un ataque dentro de su colegio en Warnes.

| Delitos sexuales |

agosto 1, 2025

Detención del novio por feminicidio de joven en Cliza

Wilber G.D. fue enviado a prisión preventiva por la muerte de Evelyn Andia. La Fiscalía presentó pruebas forenses que

| Economía |

agosto 1, 2025

Candidatos opositores coinciden en el 90% de sus planes económicos

Samuel Doria Medina y Jorge Tuto Quiroga priorizan redistribución de recursos y seguridad alimentaria en un foro organizado por

| Medio ambiente |

agosto 1, 2025

TSE organiza primer debate presidencial con ocho candidatos

Ocho candidatos debatirán sobre democracia, medio ambiente y desarrollo social en un evento transmitido por UNITEL, dirigido a votantes

| Delitos sexuales |

agosto 1, 2025

Feminicidio en Sacaba: mujer muere quemada por su cuñado

Aida Cruz, de 26 años, falleció tras sufrir quemaduras en el 70% de su cuerpo durante un ataque en

| Medio ambiente |

agosto 1, 2025

Helicópteros como transporte público en Estocolmo en invierno

Estocolmo implementa helicópteros como transporte público en invierno para conectar islas del archipiélago cuando el hielo bloquea las rutas

| Mundo |

agosto 1, 2025

TJUE endurece condiciones para listar países de origen seguro

El Tribunal de Justicia de la UE exige transparencia en las listas de países seguros para asilo, afectando procedimientos

| Mundo |

agosto 1, 2025

Suecia condena a cadena perpetua a yihadista por asesinato de piloto jordano

Osama Krayem fue sentenciado por su participación en el asesinato del piloto Maaz al-Kasasbeh, quemado vivo por el Estado

| Economía |

agosto 1, 2025

Choferes y gremiales de El Alto anuncian paro por falta de combustible

Choferes y gremiales de El Alto iniciarán protestas escalonadas desde el próximo lunes, exigiendo abastecimiento de combustible y freno

| Economía |

agosto 1, 2025

Emapa asegura entrega de harina subvencionada pese a paro de panaderos

La empresa estatal Emapa garantiza la distribución de harina subvencionada, mientras panificadores denuncian retrasos y deudas pendientes desde enero.