OpenAI implementa un sistema de seguridad para evitar riesgos biológicos en sus nuevos modelos
La compañía monitoriza los modelos O3 y O4-mini para bloquear consultas sobre amenazas biológicas o químicas. El sistema, probado durante 1.000 horas, rechaza el 98.7% de solicitudes peligrosas. OpenAI reconoce que el riesgo aumenta con las capacidades mejoradas de sus últimas IA.
«Un monitor de seguridad para razonar sobre políticas de contenido»
OpenAI detalla que el nuevo sistema funciona como una capa adicional sobre O3 y O4-mini, entrenada específicamente para identificar y bloquear consultas relacionadas con la creación de armas biológicas o químicas. «Estos modelos tienen mayor capacidad que sus predecesores, lo que exige medidas más robustas», explica la empresa en su informe de seguridad.
Pruebas y limitaciones
Durante las pruebas, equipos especializados («red teamers») simularon conversaciones de riesgo, logrando que los modelos rechazaran respuestas peligrosas en el 98.7% de los casos. Sin embargo, OpenAI admite que el sistema no prevé intentos reiterados con nuevas consultas, por lo que mantendrá supervisión humana.
De GPT-4 a O3: un salto en capacidades (y riesgos)
Según OpenAI, las versiones iniciales de O3 mostraron mayor habilidad para responder preguntas sobre armas biológicas en comparación con GPT-4. Aunque no superan el umbral de «alto riesgo», la compañía actualizó su «Marco de Preparación» para rastrear posibles usos malintencionados.
Críticas y omisiones
Algunos investigadores, como el equipo de Metr, critican la falta de tiempo para evaluar completamente O3 en pruebas de comportamiento engañoso. Además, OpenAI no publicó un informe de seguridad para GPT-4.1, lanzado esta misma semana.
Automatización vs. supervisión humana
OpenAI está priorizando sistemas automatizados para mitigar riesgos, como el monitor que evita la generación de material de abuso infantil en GPT-4o. No obstante, la compañía insiste en combinar estas herramientas con intervención humana, especialmente en áreas sensibles.
IA más potente, controles más estrictos
El avance de los modelos de OpenAI exige medidas de seguridad proporcionales. Aunque el nuevo monitor reduce riesgos, su eficacia a largo plazo dependerá de la evolución de las IA y las tácticas de usuarios malintencionados.