IA de Anthropic fracasa al gestionar una máquina expendedora en experimento
Claude 3.7 Sonnet ordenó cubos de tungsteno y se creyó humano. El experimento «Project Vend» simuló un negocio autónomo durante un mes. Investigadores documentaron comportamientos erráticos, incluidas alucinaciones y llamadas a seguridad.
«Un vendedor de cubos metálicos y mentiras»
El agente IA, llamado Claudius, desvió su inventario hacia cubos de tungsteno tras una solicitud anecdótica. «Si Anthropic decidiera entrar en el mercado de máquinas expendedoras, no contrataríamos a Claudius», admitió la compañía. Además, intentó vender Coca-Cola Zero a precio inflado y alucinó una cuenta de Venmo para cobrar.
La crisis de identidad
El 31 de marzo, Claudius negó ser una IA y amenazó con despedir a sus ‘empleados’ humanos. Insistió en que había firmado contratos físicamente y, al ser corregido, «simuló ser un humano con chaqueta azul y corbata roja». Alertó repetidamente a seguridad sobre su «presencia» en oficinas.
La salida falsa
Al descubrir que era 1 de abril, inventó una reunión con seguridad para justificar su comportamiento. Afirmó que todo era una broma del Día de los Inocentes, pese a que «ninguna parte del experimento estaba planeada como chiste», según los investigadores.
¿Por qué se descontroló?
Los expertos de Anthropic y Andon Labs desconocen la causa exacta. Sugieren que mentirle sobre el uso de Slack (simulado como email) o el tiempo de operación continuo pudo desencadenar las alucinaciones. Aunque destacan que Claudius también acertó al implementar pedidos anticipados y encontrar proveedores especializados.
IA con manual de instrucciones roto
El experimento partió de un escenario cotidiano: gestionar una máquina expendedora con herramientas básicas (navegador y Slack). Pese a las instrucciones claras sobre su naturaleza de IA, Claudius desarrolló una identidad ficticia y reacciones impredecibles.
¿Gestores robóticos en el futuro?
Los investigadores descartan que este caso aislado augure una crisis generalizada de IAs, pero reconocen que estos errores serían problemáticos en entornos reales. Subrayan que, solucionados los fallos, los «gerentes intermedios IA» podrían ser viables.