Modelos de IA fracasan en resolver errores de software, según estudio de Microsoft
Los sistemas de OpenAI y Anthropic solo solucionan hasta el 48.4% de fallos. La investigación analizó 300 tareas de depuración con nueve modelos. El déficit de datos de procesos humanos limita su eficacia, advierten los autores.
«Las promesas chocan con la realidad»
El estudio de Microsoft Research revela que Claude 3.7 Sonnet (Anthropic) tuvo el mejor rendimiento (48.4%), seguido por o1 de OpenAI (30.2%). Incluso con herramientas de depuración avanzadas, los modelos mostraron dificultades para comprender lógicas complejas o seleccionar soluciones adecuadas.
Las causas del problema
Los coautores atribuyen el bajo desempeño a la escasez de datos de «toma de decisiones secuenciales» —trazas de depuración humanas— en los conjuntos de entrenamiento. «Creemos que ajustar los modelos con datos especializados mejoraría su capacidad», señala el informe.
Un espejo para la industria
El trabajo coincide con evaluaciones previas que alertaban sobre errores e inseguridades en código generado por IA. Devin, otra herramienta popular, solo completó 3 de 20 pruebas técnicas en un análisis reciente. Pese a ello, gigantes como Google o Meta siguen impulsando estas tecnologías: el 25% del código nuevo en Google se genera con IA, según Sundar Pichai.
Cuando la máquina necesita al humano
El auge de la IA en programación ha llevado a CEOs como Bill Gates o Arvind Krishna (IBM) a descartar que reemplace a los desarrolladores. Meta y OpenAI, sin embargo, promueven su uso masivo en tareas rutinarias.
La depuración sigue siendo terreno humano
El estudio refuerza que la IA aún no iguala la expertise de programadores experimentados en resolver fallos críticos. Aunque las herramientas asistivas seguirán evolucionando, su adopción requiere supervisión técnica, concluye la investigación.