Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Jailbreaks de múltiples pasos

Los "jailbreaks" de múltiples pasos representan una metodología de ataque avanzada contra los modelos de lenguaje grande (LLM), distinta de los intentos directos de un solo comando. En lugar de ello, el atacante construye un escenario conversacional bien diseñado a lo largo de una serie de interacciones. El objetivo es guiar al LLM, de manera progresiva y sutil, hacia la generación de contenido sensible o malicioso, sorteando las defensas paso a paso. Estos ataques se categorizan principalmente en dos estrategias:1. **Contextualización de la Solicitud (Request Contextualizing)** Esta técnica se inspira en el *Chain-of-Thought* (Cadena de Pensamiento), que descompone una tarea compleja en múltiples subpasos. El atacante divide el *prompt* de *jailbreak* en varias rondas de conversación, logrando el objetivo malicioso mediante una escalada gradual y contextualizada. 2. **Asistencia Externa (External Assistance)** Esta aproximación emplea interfaces o modelos externos para construir o refinar los *prompts* de ataque. Por ejemplo, la herramienta JAILBREAKER está diseñada para automatizar ataques, como inyecciones SQL, aprovechando el contexto del LLM. Su mecanismo comienza por la descompilación de los mecanismos de defensa del chatbot, lo que permite realizar ingeniería inversa para identificar de forma precisa las vulnerabilidades y la ineficacia de las defensas internas del modelo.

Fuente: MIT AI Risk Repositorymit55

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit55

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar un *Sistema de Defensa Multi-Turno y en Profundidad* (Defense-in-Depth) para monitorear el contexto conversacional completo. Esto incluye la detección de intención adversaria distribuida, el seguimiento del flujo de diálogo y la activación de *ensemble guardrails* que refuercen las políticas de seguridad en cada interacción. 2. Aplicar *Técnicas de Sanitización y Perturbación de Prompts* a nivel de interfaz. Estrategias como la retrotraducción multilingüe, la eliminación heurística de etiquetas de rol (Input Sanitization) o la transformación activa del texto deben neutralizar instrucciones maliciosas ofuscadas antes de que la entrada sea procesada por el modelo central. 3. Fortalecer la *Alineación de Seguridad* del modelo mediante *Ajuste Fino Adversarial* y el uso de un mecanismo de *Safety Chain-of-Thought* (SCoT). Este enfoque entrena al LLM para analizar proactivamente la peligrosidad de la solicitud y justificar su negativa, haciendo el sistema intrínsecamente más resistente a la recondicionamiento contextual y a las técnicas de *priming* gradual.