Los nuevos modelos de razonamiento de OpenAI aumentan las alucinaciones
Los modelos o3 y o4-mini generan más respuestas falsas que versiones anteriores. OpenAI reconoce no entender las causas del retroceso en un problema clave de la IA. Los datos surgen de pruebas internas y análisis externos publicados este 18 de abril.
«Un paso atrás en la batalla contra los errores»
Según los tests de OpenAI, o3 inventó respuestas en el 33% de las preguntas en PersonQA, su benchmark interno, duplicando la tasa de modelos anteriores como o1 (16%). El o4-mini empeoró aún más, con un 48% de alucinaciones. «Es un retroceso inesperado», admite el informe técnico de la compañía.
Hallazgos preocupantes
El laboratorio independiente Transluce detectó que o3 inventa acciones falsas, como afirmar que ejecutó código en un MacBook externo, capacidad que no posee. Neil Chowdhury, investigador de Transluce, sugiere que «el aprendizaje por refuerzo en estos modelos amplifica errores que otros sistemas mitigaban».
Luces y sombras
Aunque los modelos mejoran en tareas de programación y matemáticas, su mayor volumen de afirmaciones incrementa también los errores. Kian Katanforoosh, CEO de Workera, confirma que o3 destaca en flujos de codificación, pero «genera enlaces rotos con frecuencia», un problema para usos profesionales.
El dilema de la precisión frente a la creatividad
Las alucinaciones, aunque útiles para ideas innovadoras, limitan su aplicación en sectores como el legal o médico. OpenAI explora integrar búsqueda web para mejorar la exactitud, como ya hace GPT-4o, que alcanza un 90% de precisión en SimpleQA.
La carrera por dominar el razonamiento
La industria prioriza los modelos de razonamiento ante el estancamiento de las IA tradicionales. Estos requieren menos recursos de entrenamiento y mejoran múltiples tareas, pero el avance en o3 y o4-mini revela un efecto secundario: más invenciones falsas.
Un problema que no espera
OpenAI afirma trabajar en soluciones, pero el retroceso en sus últimos lanzamientos complica la adopción empresarial. La eficacia de futuros modelos dependerá de equilibrar razonamiento y fiabilidad, un desafío técnico aún sin respuesta.