OpenAI reconoce aumento de alucinaciones en sus nuevos modelos

Los modelos o3 y o4-mini de OpenAI generan hasta un 48% de respuestas falsas, según pruebas internas y análisis independientes publicados recientemente.
TechCrunch
Diseño abstracto de un patrón blanco y negro con efecto de distorsión en el centro.
Un diseño abstracto que presenta un patrón repetido, destacando un elemento más nítido en el centro con un efecto de distorsión en tonos azules y rojos.

Los nuevos modelos de razonamiento de OpenAI aumentan las alucinaciones

Los modelos o3 y o4-mini generan más respuestas falsas que versiones anteriores. OpenAI reconoce no entender las causas del retroceso en un problema clave de la IA. Los datos surgen de pruebas internas y análisis externos publicados este 18 de abril.

«Un paso atrás en la batalla contra los errores»

Según los tests de OpenAI, o3 inventó respuestas en el 33% de las preguntas en PersonQA, su benchmark interno, duplicando la tasa de modelos anteriores como o1 (16%). El o4-mini empeoró aún más, con un 48% de alucinaciones. «Es un retroceso inesperado», admite el informe técnico de la compañía.

Hallazgos preocupantes

El laboratorio independiente Transluce detectó que o3 inventa acciones falsas, como afirmar que ejecutó código en un MacBook externo, capacidad que no posee. Neil Chowdhury, investigador de Transluce, sugiere que «el aprendizaje por refuerzo en estos modelos amplifica errores que otros sistemas mitigaban».

Luces y sombras

Aunque los modelos mejoran en tareas de programación y matemáticas, su mayor volumen de afirmaciones incrementa también los errores. Kian Katanforoosh, CEO de Workera, confirma que o3 destaca en flujos de codificación, pero «genera enlaces rotos con frecuencia», un problema para usos profesionales.

El dilema de la precisión frente a la creatividad

Las alucinaciones, aunque útiles para ideas innovadoras, limitan su aplicación en sectores como el legal o médico. OpenAI explora integrar búsqueda web para mejorar la exactitud, como ya hace GPT-4o, que alcanza un 90% de precisión en SimpleQA.

La carrera por dominar el razonamiento

La industria prioriza los modelos de razonamiento ante el estancamiento de las IA tradicionales. Estos requieren menos recursos de entrenamiento y mejoran múltiples tareas, pero el avance en o3 y o4-mini revela un efecto secundario: más invenciones falsas.

Un problema que no espera

OpenAI afirma trabajar en soluciones, pero el retroceso en sus últimos lanzamientos complica la adopción empresarial. La eficacia de futuros modelos dependerá de equilibrar razonamiento y fiabilidad, un desafío técnico aún sin respuesta.