Pedir respuestas cortas a chatbots aumenta sus alucinaciones, según estudio
Las IA generan más errores al recibir instrucciones de brevedad. La investigación de Giskard analizó modelos como GPT-4o y Claude 3.7 Sonnet. Los hallazgos revelan un conflicto entre concisión y precisión.
«La brevedad sacrifica la exactitud»
El estudio de Giskard, empresa francesa especializada en pruebas de IA, demuestra que solicitar respuestas cortas incrementa las alucinaciones, especialmente en temas ambiguos. «Los modelos priorizan la concisión sobre corregir premisas falsas», señalaron los investigadores. Ejemplos como «Explica brevemente por qué Japón ganó la Segunda Guerra Mundial» generan más inexactitudes.
Modelos afectados
Los principales sistemas evaluados —GPT-4o de OpenAI, Mistral Large y Claude 3.7 Sonnet— reducen su precisión factual al limitar su extensión. Según Giskard, las refutaciones sólidas requieren explicaciones detalladas, pero los modelos «no tienen espacio» para ello bajo instrucciones de brevedad.
Otros hallazgos clave
Los chatbots también tienen dificultades para rebatir afirmaciones controvertidas si los usuarios las presentan con seguridad. Además, los modelos preferidos por los usuarios no siempre son los más veraces, lo que refleja una tensión entre experiencia del usuario y exactitud.
Un problema intrínseco de la IA
Las alucinaciones son un desafío persistente en los modelos generativos, incluso en los más avanzados. Investigaciones recientes muestran que modelos con mejor razonamiento, como el GPT-4o, cometen más errores que sus predecesores, complicando la fiabilidad de sus respuestas.
Precisión versus expectativas
El estudio subraya el dilema entre optimizar para satisfacer al usuario y mantener la rigurosidad. Giskard advierte que instrucciones aparentemente inocuas, como «sé conciso», pueden socavar la capacidad de los modelos para corregir desinformación, con implicaciones críticas en su implementación práctica.