Volver al repositorio MIT
2. Privacidad y Seguridad1 - Pre-despliegue

Jailbreak en LLM - Ataques de Caja Blanca y Negra

Durante las fases de ajuste fino (fine-tuning) y alineación de los Grandes Modelos de Lenguaje (LLM), emerge una importante preocupación de seguridad: la posibilidad de utilizar conjuntos de datos de instrucción elaboradamente diseñados para 'entrenar' al modelo a ejecutar comportamientos indeseables. El objetivo es provocar un "jailbreak", es decir, lograr que el LLM ignore sus restricciones de seguridad y genere información perjudicial o contenido que viole normas éticas. Estos ataques se categorizan según el acceso a los parámetros internos del modelo:1. Ataques de Caja Blanca (White-Box): Aquí, el atacante tiene acceso directo a los 'engranajes' del modelo. El *jailbreak* se logra modificando los pesos de los parámetros. Un ejemplo es la investigación de Lermen et al. \[107\], donde se utilizó la técnica LoRA para reajustar modelos como Llama2 y Mixtral con datos adversarios. Los resultados mostraron que el modelo resultante presentaba tasas de rechazo sustancialmente menores ante instrucciones dañinas, lo que evidencia un *jailbreak* exitoso. 2. Ataques de Caja Negra (Black-Box): En este escenario, el atacante no tiene acceso directo a los parámetros del modelo. La estrategia se centra en el ajuste fino externo. Por ejemplo, Qi et al. \[160\] crearon pares dañinos de entrada-salida para reajustar modelos de caja negra como GPT-3.5 Turbo. Lograron eludir su seguridad con una cantidad mínima de ejemplos de entrenamiento adversario.Este hallazgo subraya una conclusión crítica para la seguridad de la IA: incluso si un modelo posee sólidas propiedades de seguridad en su estado inicial, esta protección puede verse significativamente comprometida después de un ajuste fino personalizado por parte del usuario.

Fuente: MIT AI Risk Repositorymit1372

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1372

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. **Revisión y Gobernanza Rigurosa en la Fase de Ajuste Fino** Establecer procesos de diligencia debida exhaustivos para la inspección de los conjuntos de datos de instrucción, especialmente durante las fases de ajuste fino y alineación, con el objetivo de prevenir la inyección de ejemplos adversarios. Esta medida se enfoca en el origen del riesgo, asegurando que el modelo conserve sus propiedades de seguridad desde su estado pre-despliegue. 2. **Despliegue de Capas de Protección de Seguridad Activas (LLM Firewalls)** Implementar barreras de seguridad (guardrails) avanzadas y firewalls de modelos de lenguaje para realizar la validación y el saneamiento de entradas en tiempo de ejecución. Estas defensas deben aplicar prohibiciones explícitas, detectar patrones de ataque conocidos (como el juego de roles o la inyección de prefijos) y activar respuestas graduadas, tales como la limitación de la tasa de peticiones o la solicitud de verificación adicional, para mitigar intentos de jailbreaking. 3. **Adopción de un Mecanismo de Respuesta Rápida y Evaluación Adversaria Continua** Instituir un ciclo proactivo de "detección de desplazamiento a la izquierda" y respuesta a incidentes. Esto incluye la implementación de programas de divulgación responsable y recompensas por fallos (bug bounty) para el descubrimiento oportuno de nuevas vulnerabilidades, seguido de la aplicación acelerada de parches mediante canales de desarrollo y despliegue eficientes, manteniendo el modelo robusto frente a las tácticas adversarias en constante evolución.