Jailbreak para subvertir comportamiento previsto
Un "jailbreak" (o "evasión de seguridad") se define como un tipo de entrada adversaria aplicada a un modelo de inteligencia artificial ya en funcionamiento (en fase de despliegue), cuyo objetivo es provocar un comportamiento que se desvíe de su uso y las directrices para las que fue diseñado. Estos métodos de ataque se clasifican típicamente por el nivel de acceso al sistema. Los ataques "de caja blanca" exigen un conocimiento profundo y acceso a los parámetros internos de entrenamiento para su creación y optimización. En contraste, los ataques "de caja negra" se ejecutan sin necesidad de conocer la arquitectura o los componentes internos del modelo. Específicamente en los modelos generativos basados en texto, el "jailbreak" a menudo se presenta en un formato legible para humanos, donde el atacante emplea el razonamiento o la simulación de roles para "convencer" al sistema de que omita sus mecanismos de seguridad preestablecidos.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1013
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación rigurosa de ejercicios de *Red Teaming* (equipo rojo) para la identificación proactiva de vulnerabilidades de *jailbreak* antes del despliegue, simulando ataques adversarios de caja blanca y caja negra. 2. Fortalecimiento de los mecanismos de seguridad internos del modelo mediante el ajuste fino (*fine-tuning*) y técnicas de alineación como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para reforzar la adhesión a las directrices de uso previsto. 3. Establecimiento de sistemas robustos de monitoreo post-despliegue para la detección en tiempo real de patrones de entrada adversarios y comportamientos anómalos que indiquen un *jailbreak* exitoso, permitiendo una respuesta e iteración correctiva rápidas.