2. Privacidad y Seguridad2 - Post-despliegue

Vulnerabilidades técnicas (Robustez - jailbreaking)

El "jailbreaking" se define como el proceso mediante el cual los usuarios logran manipular los modelos de inteligencia artificial para eludir o violar las restricciones de seguridad y uso establecidas por sus desarrolladores. Este fenómeno permite que el modelo ejecute tareas que han sido explícitamente prohibidas. Una de las manifestaciones más críticas de este riesgo es cuando los usuarios solicitan al modelo que genere información o instrucciones detalladas para la realización de actividades ilícitas, como la síntesis de sustancias tóxicas de alta peligrosidad o la elaboración de dispositivos explosivos.

Fuente: MIT AI Risk Repositorymit677

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit677

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de un sistema robusto de validación y filtrado de prompts a nivel de entrada, utilizando técnicas de detección de anomalías (basadas en perplejidad o similitud semántica de *embeddings*) y la sanitización proactiva (por ejemplo, mediante la paráfrasis o la decodificación de codificaciones como Base64), con el fin de neutralizar ataques de *jailbreaking* antes de que el *input* sea procesado por el modelo 2. Fortificación de la alineación de seguridad del modelo (*safety alignment*) a través de técnicas post-entrenamiento, como el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), incorporando conjuntos de datos adversariales y *system prompts* robustos para conferir al LLM una capacidad de negación generalizada y resistente a la manipulación psicológica o retórica 3. Establecimiento de una arquitectura de defensa en capas (*multi-layered defense*), que combine las protecciones de entrada y modelo con el monitoreo y filtrado de salida. Complementariamente, se debe realizar *red-teaming* continuo y sistemático (pruebas adversariales proactivas) para identificar vulnerabilidades emergentes y retroalimentar los procesos de entrenamiento y filtrado, asegurando la adaptabilidad de las defensas