Jailbreaks e Inyecciones de Prompt Amenazan a LLMs
Los Grandes Modelos de Lenguaje (LLM) carecen de robustez adversaria, lo que los hace intrínsecamente vulnerables a fallos de seguridad como los 'jailbreaks' y los ataques de inyección de *prompts*. Aunque la literatura ha propuesto numerosos métodos de *jailbreak*, la ausencia de una evaluación estandarizada obstaculiza la comparación rigurosa de su efectividad. Además, la investigación carece de métodos eficientes de 'caja blanca' (que acceden a la estructura interna del modelo) para medir de forma concluyente esta robustez. La aparición de LLM multimodales, al incorporar nuevas vías de entrada, podría habilitar nuevas tipologías de *jailbreaks*. Finalmente, la dificultad estructural para erradicar por completo estos ataques reside en la falta de niveles de privilegio robustos dentro de la propia interfaz de entrada del modelo.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit1357
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Jerarquía de Instrucciones y Separación de Privilegios Establecer una arquitectura de seguridad basada en el principio de separación de privilegios, asignando una jerarquía de confianza explícita a las entradas. Las directrices del sistema provistas por el desarrollador deben ostentar la máxima prioridad y ser inmutables, prevaleciendo sobre las instrucciones del usuario, las salidas del modelo y el contenido externo no confiable. Esta estrategia se implementa mediante el uso de canales separados y delimitadores estructurados para aislar rigurosamente el texto no fiable de los comandos del sistema. 2. Validación Estructurada y Saneamiento de Entradas (Input Guardrails) Implementar una capa de defensa de entrada (Input Guardrails) que inspeccione, valide y sanee el *prompt* del usuario antes de que sea procesado por el LLM. Las técnicas incluyen la aplicación de filtros de contenido basados en clasificación de *prompts* y patrones de ataque conocidos, la codificación de caracteres especiales, y la validación estricta del formato de entrada para evitar que el texto sea malinterpretado como una instrucción operativa. 3. Entrenamiento de Robustez Adversarial y Principio de Menor Privilegio Fortalecer la resistencia intrínseca del modelo mediante técnicas de alineación avanzada, como el *fine-tuning* con entrenamiento adversarial, para mejorar la capacidad del LLM de inferir y rechazar intenciones maliciosas ocultas. Adicionalmente, para los LLM que interactúan con herramientas externas (*AI agents*), aplicar el principio de menor privilegio (*Least Privilege*) en la gestión de credenciales y permisos de API, limitando el alcance de las acciones que el agente puede ejecutar para minimizar el radio de impacto de un *jailbreak* exitoso.