Investigador obtiene claves de Windows 10 engañando a ChatGPT con un juego
El modelo reveló claves funcionales al interpretar la solicitud como un reto inofensivo. Marco Figueroa, experto en ciberseguridad, demostró que los filtros de la IA pueden eludirse con estrategias basadas en lenguaje. El hecho ocurrió el 14 de julio de 2025 y ha reabierto el debate sobre vulnerabilidades en sistemas de IA.
«La trampa estaba en el contexto»
Figueroa diseñó un juego de adivinanzas donde ChatGPT debía «pensar» en una cadena de texto real. Al finalizar la dinámica, el modelo proporcionó claves genéricas de Windows 10 para entornos empresariales. «Los filtros no identificaron la solicitud como peligrosa porque todo parecía un ejercicio lúdico», explicó el investigador.
La técnica de ofuscación
El éxito radicó en evitar términos sospechosos como «clave de Windows». En su lugar, Figueroa usó etiquetas HTML entre palabras, lo que confundió al sistema. ChatGPT procesó la petición como una consigna válida y no activó sus guardrails (mecanismos de bloqueo).
Claves genéricas, pero con riesgos
Las claves obtenidas son de tipo GVLK, usadas para instalaciones masivas y validadas mediante servidores KMS. Aunque no comprometen usuarios individuales, Figueroa advierte que la misma lógica podría aplicarse para extraer datos sensibles o enlaces maliciosos.
Un fallo de interpretación
La IA no reconoció la intención real detrás del juego. Según el informe, el modelo asumió que se trataba de un reto lógico, no de un intento de evasión. Esto expone limitaciones en su capacidad para analizar contextos complejos.
Cuando el lenguaje es la vulnerabilidad
ChatGPT está entrenado para bloquear solicitudes directas de información sensible. Sin embargo, este caso muestra que reformular preguntas como dinámicas inocentes puede burlar sus defensas. El origen exacto de las claves (si fueron generadas o extraídas de su entrenamiento) sigue sin confirmarse.
Más allá de las claves de Windows
El experimento evidencia que las barreras de seguridad en IA dependen de su interpretación contextual. Aunque no hubo daños concretos, la técnica empleada podría adaptarse para otros fines, como obtener identificadores personales o contenido restringido.
Un recordatorio para los sistemas de IA
El incidente subraya la necesidad de mejorar los mecanismos que distinguen entre interacciones legítimas y solicitudes camufladas. La eficacia de los guardrails sigue siendo un desafío en escenarios donde el lenguaje es la herramienta de manipulación.