Vulnerabilities to jailbreaks exploiting long context windows (many- shot jailbreaking)
En el ámbito de la inteligencia artificial, la expansión de las ventanas de contexto en los modelos de lenguaje (LLMs) introduce una nueva clase de riesgos de seguridad. Específicamente, los modelos con ventanas de contexto amplias son susceptibles a métodos de explotación ineficaces en sus contrapartes con contextos más limitados. Un ejemplo paradigmático es la diferencia entre el 'jailbreaking' de pocos ejemplos (few-shot) y el 'jailbreaking' de múltiples ejemplos (many-shot). Mientras que presentar solo un puñado de ejemplos del comportamiento dañino deseado a menudo no logra eludir las salvaguardas del modelo, incrementar significativamente el número de estos ejemplos eleva notablemente la probabilidad de que el modelo genere una respuesta perjudicial. Esta amenaza se intensifica de manera proporcional al aumento continuo de la capacidad de memoria contextual en las iteraciones más recientes de los modelos [7].
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1019
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. **Implementación de Defensas a Nivel de Interfaz y *Prompt*** Establecer un sistema de defensa de múltiples capas que priorice el saneamiento de la entrada (*input sanitization*) y la clasificación predictiva antes de que el *prompt* llegue al modelo. Esto incluye la eliminación o modificación de etiquetas de rol (estándar y simuladas/falsas) y el despliegue de clasificadores especializados (como *Constitutional Classifiers* o similares) para la detección proactiva de patrones de *many-shot jailbreaking* (MSJ) o *prompts* con alta densidad de ejemplos adversarios. 2. **Refuerzo del Alineamiento del Modelo Mediante *Fine-Tuning* Avanzado** Aplicar técnicas de *fine-tuning* y alineamiento más allá del Reforzamiento por Aprendizaje con Retroalimentación Humana (RLHF) estándar. Esto implica entrenar explícitamente el modelo con ejemplos de ataques MSJ para reforzar su capacidad de rechazo y mitigar la tendencia del *in-context learning* a anular las salvaguardas. Estrategias como la "Salinización LLM" (*LLM Salting*), que introduce variaciones específicas en el comportamiento de rechazo en el espacio de activación, han demostrado ser prometedoras contra la transferibilidad de estos ataques. 3. **Limitación Operacional de la Ventana de Contexto** Establecer límites efectivos o mecanismos de degradación controlada para la ventana de contexto en escenarios de alto riesgo o interacciones conversacionales. Dado que la longitud del contexto es el principal factor determinante de la efectividad del ataque, la limitación de la capacidad del modelo para procesar cientos de "ejemplos" de comportamiento dañino previene fundamentalmente la explotación de esta vulnerabilidad, a pesar de las posibles desventajas en la utilidad para tareas benignas de contexto largo.