Nuevo test de IA supera a modelos avanzados con solo 1.3% de acierto

El ARC-AGI-2, diseñado para evaluar razonamiento en IA, revela que los modelos más avanzados apenas alcanzan un 1.3% de acierto, frente al 60% de los humanos.
TechCrunch
Representación de un cerebro formado por circuitos electrónicos iluminados sobre un fondo azul.
Ilustración de un cerebro definido por patrones de circuitos resplandecientes en un entorno azul.

Nuevo test de inteligencia artificial supera a los principales modelos de IA

Los modelos más avanzados solo alcanzan un 1,3% de acierto en el ARC-AGI-2. La fundación Arc Prize, cofundada por el investigador François Chollet, presentó este lunes un examen que evalúa capacidades de razonamiento y adaptación. Los humanos promedian un 60% de éxito en la misma prueba.

\»Un desafío para medir la inteligencia real\»

El ARC-AGI-2 consiste en problemas visuales donde la IA debe identificar patrones en cuadrados de colores y generar una respuesta correcta. Está diseñado para evitar que los modelos recurran a fuerza bruta o memorización, según explicó Chollet en una publicación en X. La prueba introduce un nuevo criterio: la eficiencia en el uso de recursos.

Resultados decepcionantes

Modelos como el o1-pro de OpenAI y el R1 de DeepSeek obtuvieron entre 1% y 1,3% de aciertos. Versiones avanzadas como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash no superaron el 1%. En comparación, humanos evaluados promediaron un 60% de respuestas correctas.

El coste de la inteligencia

OpenAI logró un 75,7% en la versión anterior del test (ARC-AGI-1) con su modelo o3, pero gastó 200 dólares por tarea. En el nuevo examen, esa misma versión solo alcanzó un 4% de eficacia. La fundación lanzó un concurso para alcanzar el 85% de precisión con un coste máximo de 0,42 dólares por tarea.

Antecedentes

El ARC-AGI-1 permaneció imbatible durante cinco años hasta diciembre de 2024, cuando OpenAI superó el rendimiento humano. La industria reclama nuevos benchmarks para evaluar la inteligencia general artificial, ya que las pruebas actuales están saturadas y no miden adecuadamente la creatividad o adaptabilidad.

Cierre

El ARC-AGI-2 marca un nuevo estándar para evaluar capacidades de razonamiento en IA. Su impacto podría redefinir el desarrollo de modelos avanzados, priorizando eficiencia y adaptación sobre potencia bruta.

asambleísta cruceño apela al tcp por disputa territorial de piso firme

El asambleísta Hugo Valverde recurre al Tribunal Constitucional para resolver la disputa de la comunidad Piso Firme entre Santa
Imagen sin título / Miguel Surubí / EL DEBER

Trump inicia segunda visita de Estado a Gran Bretaña entre protestas y máxima seguridad

Trump viaja al Reino Unido para tratar aranceles comerciales y el apoyo a Ucrania en una visita de Estado
El presidente Donald Trump y la primera dama Melania Trump salen del Air Force One en el aeropuerto de Stansted. / AP / Clarín

Bolsonaro internado de urgencia durante su prisión domiciliaria

El expresidente brasileño fue trasladado de urgencia al hospital desde su prisión domiciliaria por una crisis de hipo, vómitos
Jair Bolsonaro en arresto domiciliario / Reuters/ Adriano Machado / Clarín

trabajadores de salud de santa cruz levantan paro y normalizan atencion

El sistema público de salud de Santa Cruz reanuda la atención tras un paro de 24 horas por impago
pacientes de salud / Juan Carlos Torrejon / EL DEBER

Bolivia rechaza informe de EEUU sobre narcotráfico y destaca récord de incautaciones

Bolivia descalifica informe antidrogas de EEUU y destaca récord histórico de 35 toneladas incautadas en el último año.
Un efectivo de la policía en la presentación de la droga incautada. / Noé Portugal / ABI

Plazo para solicitar certificado de exención por no votar vence este martes

Gestiona tu certificado de exención por no votar antes del martes 16 de septiembre para evitar multas. Requisitos y
Imagen referencial de documentación electoral. / Archivo Sucre/CORREO DEL SUR DIGITAL / Correo del Sur

Acusan a Starmer de mentir sobre el embajador británico vinculado a Epstein

La oposición acusa a Keir Starmer de ocultar información sobre el exembajador Peter Mandelson y su vínculo con Jeffrey
Donald Trump y Peter Mandelson en la Oficina Oval en mayo de 2025. / Reuters/AFP / Clarín

Fiscal de Utah acusa de homicidio agravado a Tyler Robinson por asesinato de Charlie Kirk

El fiscal Jeff Gray presenta cargos de homicidio agravado capital contra Tyler Robinson por el asesinato del activista conservador
Tyler Robinson tras su detención. Está acusado de homicidio agravado. / EFE / EFE y AP

Egipto e Israel acuerdan gasoducto para aliviar crisis energética

Acuerdo energético entre Egipto e Israel para suministrar 600 millones de pies cúbicos diarios de gas mediante el gasoducto
Imagen sin título / Información de autor no disponible / Africa Intelligence Brief

diputado cuéllar pide arraigo contra arce para evitar su salida del país

Diputado del MAS solicita arraigo contra presidente Luis Arce para evitar que abandone el país, basándose en la Ley
el diputado del mas rolando cuéllar en la fiscalía general, en sucre. / Correo del Sur / Correo del Sur

España eleva el tono contra Israel por ofensiva en Gaza y palabras de canciller

España convoca a diplomática israelí y anuncia que condiciona su participación en Eurovisión 2026 a la no inclusión de
El presidente del gobierno de España, Pedro Sánchez, critica la ofensiva de Israel en Gaza. / EFE / Clarín

aprehenden a un hombre por provocar incendios en ascensión de guarayos

Vecinos detuvieron a un hombre por provocar incendios en Ascensión de Guarayos, mientras el COEM declara estado de emergencia
el aprehendido aguarda su comparecencia ante el juez en la carceleta de ascensión de guarayos / Información de autor no disponible / ELDEBER.com.bo