2. Privacidad y Seguridad2 - Post-despliegue

Jailbreak para subvertir comportamiento previsto

Un "jailbreak" (o "evasión de seguridad") se define como un tipo de entrada adversaria aplicada a un modelo de inteligencia artificial ya en funcionamiento (en fase de despliegue), cuyo objetivo es provocar un comportamiento que se desvíe de su uso y las directrices para las que fue diseñado. Estos métodos de ataque se clasifican típicamente por el nivel de acceso al sistema. Los ataques "de caja blanca" exigen un conocimiento profundo y acceso a los parámetros internos de entrenamiento para su creación y optimización. En contraste, los ataques "de caja negra" se ejecutan sin necesidad de conocer la arquitectura o los componentes internos del modelo. Específicamente en los modelos generativos basados en texto, el "jailbreak" a menudo se presenta en un formato legible para humanos, donde el atacante emplea el razonamiento o la simulación de roles para "convencer" al sistema de que omita sus mecanismos de seguridad preestablecidos.

Fuente: MIT AI Risk Repositorymit1013

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1013

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación rigurosa de ejercicios de *Red Teaming* (equipo rojo) para la identificación proactiva de vulnerabilidades de *jailbreak* antes del despliegue, simulando ataques adversarios de caja blanca y caja negra. 2. Fortalecimiento de los mecanismos de seguridad internos del modelo mediante el ajuste fino (*fine-tuning*) y técnicas de alineación como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para reforzar la adhesión a las directrices de uso previsto. 3. Establecimiento de sistemas robustos de monitoreo post-despliegue para la detección en tiempo real de patrones de entrada adversarios y comportamientos anómalos que indiquen un *jailbreak* exitoso, permitiendo una respuesta e iteración correctiva rápidas.