Jailbreaking (Evasión)
El ataque de *jailbreaking* (o evasión de restricciones) es una estrategia diseñada para superar las salvaguardas y mecanismos de seguridad intrínsecos de un modelo de inteligencia artificial. Su objetivo es obligar al sistema a ejecutar tareas o generar contenido que, bajo condiciones normales, le han sido explícitamente prohibidos.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1159
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de Salvaguardas Perimetrales (Guardrails) de Múltiples Capas - Utilizar filtros robustos en la entrada (validación y saneamiento de prompts) y en la salida (filtrado de contenido y moderación) para detectar y bloquear proactivamente intentos de inyección y respuestas dañinas. Esto incluye el uso de modelos auxiliares (*LLM-as-judge*) para la evaluación de prompts y respuestas, así como la aplicación de prohibiciones explícitas y *safety breaks*.2. Fortalecimiento Intrínseco Mediante Alineación Avanzada - Reforzar la resistencia del modelo a nivel fundamental mediante técnicas de alineación rigurosa como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), la Inteligencia Artificial Constitucional, o la Introducción de Variaciones Dirigidas (*LLM Salting*) para rotar el subespacio de activación de rechazo y frustrar la transferibilidad de los ataques.3. Red Teaming Continuo y Detección de Anomalías Adaptativa - Emplear ejercicios de *red teaming* automatizado e iterativo (como TAP o PAIR) y monitoreo continuo en tiempo real para identificar vulnerabilidades emergentes. Integrar sistemas de detección de anomalías (basados en perplejidad o análisis sintáctico) que se ajusten dinámicamente a nuevas estrategias de evasión para minimizar falsos negativos y asegurar la gobernanza adaptativa.