IA fracasa en resolver errores de software, según Microsoft

Un estudio de Microsoft revela que modelos de IA como OpenAI y Anthropic solo solucionan hasta el 48.4% de fallos en software, destacando limitaciones en su capacidad de depuración.
TechCrunch
Un cartel grande en la parte superior de un edificio con un logotipo de colores.
La imagen muestra un cartel prominente montado sobre un edificio con un cielo despejado de fondo.

Modelos de IA fracasan en resolver errores de software, según estudio de Microsoft

Los sistemas de OpenAI y Anthropic solo solucionan hasta el 48.4% de fallos. La investigación analizó 300 tareas de depuración con nueve modelos. El déficit de datos de procesos humanos limita su eficacia, advierten los autores.

«Las promesas chocan con la realidad»

El estudio de Microsoft Research revela que Claude 3.7 Sonnet (Anthropic) tuvo el mejor rendimiento (48.4%), seguido por o1 de OpenAI (30.2%). Incluso con herramientas de depuración avanzadas, los modelos mostraron dificultades para comprender lógicas complejas o seleccionar soluciones adecuadas.

Las causas del problema

Los coautores atribuyen el bajo desempeño a la escasez de datos de «toma de decisiones secuenciales» —trazas de depuración humanas— en los conjuntos de entrenamiento. «Creemos que ajustar los modelos con datos especializados mejoraría su capacidad», señala el informe.

Un espejo para la industria

El trabajo coincide con evaluaciones previas que alertaban sobre errores e inseguridades en código generado por IA. Devin, otra herramienta popular, solo completó 3 de 20 pruebas técnicas en un análisis reciente. Pese a ello, gigantes como Google o Meta siguen impulsando estas tecnologías: el 25% del código nuevo en Google se genera con IA, según Sundar Pichai.

Cuando la máquina necesita al humano

El auge de la IA en programación ha llevado a CEOs como Bill Gates o Arvind Krishna (IBM) a descartar que reemplace a los desarrolladores. Meta y OpenAI, sin embargo, promueven su uso masivo en tareas rutinarias.

La depuración sigue siendo terreno humano

El estudio refuerza que la IA aún no iguala la expertise de programadores experimentados en resolver fallos críticos. Aunque las herramientas asistivas seguirán evolucionando, su adopción requiere supervisión técnica, concluye la investigación.