2. Privacidad y Seguridad2 - Post-despliegue

Jailbreaking (Evasión)

El ataque de *jailbreaking* (o evasión de restricciones) es una estrategia diseñada para superar las salvaguardas y mecanismos de seguridad intrínsecos de un modelo de inteligencia artificial. Su objetivo es obligar al sistema a ejecutar tareas o generar contenido que, bajo condiciones normales, le han sido explícitamente prohibidos.

Fuente: MIT AI Risk Repositorymit1159

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1159

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Salvaguardas Perimetrales (Guardrails) de Múltiples Capas - Utilizar filtros robustos en la entrada (validación y saneamiento de prompts) y en la salida (filtrado de contenido y moderación) para detectar y bloquear proactivamente intentos de inyección y respuestas dañinas. Esto incluye el uso de modelos auxiliares (*LLM-as-judge*) para la evaluación de prompts y respuestas, así como la aplicación de prohibiciones explícitas y *safety breaks*.2. Fortalecimiento Intrínseco Mediante Alineación Avanzada - Reforzar la resistencia del modelo a nivel fundamental mediante técnicas de alineación rigurosa como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), la Inteligencia Artificial Constitucional, o la Introducción de Variaciones Dirigidas (*LLM Salting*) para rotar el subespacio de activación de rechazo y frustrar la transferibilidad de los ataques.3. Red Teaming Continuo y Detección de Anomalías Adaptativa - Emplear ejercicios de *red teaming* automatizado e iterativo (como TAP o PAIR) y monitoreo continuo en tiempo real para identificar vulnerabilidades emergentes. Integrar sistemas de detección de anomalías (basados en perplejidad o análisis sintáctico) que se ajusten dinámicamente a nuevas estrategias de evasión para minimizar falsos negativos y asegurar la gobernanza adaptativa.