| Avances científicos | Inteligencia Artificial |

Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

TechCrunch

A new, challenging AGI test stumps most AI models | TechCrunch
Maxwell Zeff
TechCrunch
en_US
Publicado el: 1742862593000
1742932637
https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

Post Views: 49

| Política |

septiembre 16, 2025

asambleísta cruceño apela al tcp por disputa territorial de piso firme

El asambleísta Hugo Valverde recurre al Tribunal Constitucional para resolver la disputa de la comunidad Piso Firme entre Santa

| Mundo |

septiembre 16, 2025

Trump inicia segunda visita de Estado a Gran Bretaña entre protestas y máxima seguridad

Trump viaja al Reino Unido para tratar aranceles comerciales y el apoyo a Ucrania en una visita de Estado

| Mundo |

septiembre 16, 2025

Bolsonaro internado de urgencia durante su prisión domiciliaria

El expresidente brasileño fue trasladado de urgencia al hospital desde su prisión domiciliaria por una crisis de hipo, vómitos

| Salud |

septiembre 16, 2025

trabajadores de salud de santa cruz levantan paro y normalizan atencion

El sistema público de salud de Santa Cruz reanuda la atención tras un paro de 24 horas por impago

| Política |

septiembre 16, 2025

Bolivia rechaza informe de EEUU sobre narcotráfico y destaca récord de incautaciones

Bolivia descalifica informe antidrogas de EEUU y destaca récord histórico de 35 toneladas incautadas en el último año.

| Política |

septiembre 16, 2025

Plazo para solicitar certificado de exención por no votar vence este martes

Gestiona tu certificado de exención por no votar antes del martes 16 de septiembre para evitar multas. Requisitos y

| Corrupción y Ética |

septiembre 16, 2025

Acusan a Starmer de mentir sobre el embajador británico vinculado a Epstein

La oposición acusa a Keir Starmer de ocultar información sobre el exembajador Peter Mandelson y su vínculo con Jeffrey

| Mundo |

septiembre 16, 2025

Fiscal de Utah acusa de homicidio agravado a Tyler Robinson por asesinato de Charlie Kirk

El fiscal Jeff Gray presenta cargos de homicidio agravado capital contra Tyler Robinson por el asesinato del activista conservador

| Economía |

septiembre 16, 2025

Egipto e Israel acuerdan gasoducto para aliviar crisis energética

Acuerdo energético entre Egipto e Israel para suministrar 600 millones de pies cúbicos diarios de gas mediante el gasoducto

| Corrupción y Ética |

septiembre 16, 2025

diputado cuéllar pide arraigo contra arce para evitar su salida del país

Diputado del MAS solicita arraigo contra presidente Luis Arce para evitar que abandone el país, basándose en la Ley

| Mundo |

septiembre 16, 2025

España eleva el tono contra Israel por ofensiva en Gaza y palabras de canciller

España convoca a diplomática israelí y anuncia que condiciona su participación en Eurovisión 2026 a la no inclusión de

| Medio ambiente |

septiembre 16, 2025

aprehenden a un hombre por provocar incendios en ascensión de guarayos

Vecinos detuvieron a un hombre por provocar incendios en Ascensión de Guarayos, mientras el COEM declara estado de emergencia