Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Jailbreak en LLM - Ataques de Prompt

Imaginemos que estamos en la fase de "conversación" con un modelo de lenguaje grande (LLM), la etapa donde le damos instrucciones (el *prompting*) y este procesa la información (el razonamiento). Aquí reside una vulnerabilidad crítica: la interacción dialógica, si se manipula, puede llevar al LLM a un estado de "confusión" o a una "complacencia excesiva". El riesgo inherente es que, al encontrarse en estos estados alterados, el modelo se vuelva susceptible a peticiones maliciosas y termine generando contenido peligroso o inapropiado. Estos ataques, conocidos como métodos de *jailbreak*, operan principalmente como "caja negra", lo que significa que el atacante no necesita conocer la arquitectura interna del modelo. Se han identificado cuatro categorías principales para clasificar estas técnicas de manipulación: la *Inyección de Prompt*, el *Juego de Roles* simulado, el *Prompting Adversario* y la *Transformación de la Forma del Prompt*

Fuente: MIT AI Risk Repositorymit1373

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1373

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Aislamiento y Saneamiento de la Entrada (Input Isolation and Sanitization): Implementar la validación y el saneamiento estricto de las entradas. Esto requiere tratar todo el contenido no confiable (la entrada del usuario) como datos y no como comandos, utilizando delimitadores o estructuras de mensajes basadas en roles para separar explícitamente las instrucciones críticas del sistema de la información variable del usuario. 2. Principio de Privilegio Mínimo (Principle of Least Privilege) y Reducción del Radio de Explosión (Blast Radius Reduction): Aplicar un diseño defensivo que limite el impacto potencial de un ataque exitoso. Restringir el acceso del LLM a los sistemas backend, bases de datos y APIs externas otorgándole solo el mínimo de permisos necesarios para su función. Todo resultado del LLM debe ser tratado como potencialmente malicioso antes de su posterior procesamiento. 3. Monitoreo y Validación de la Salida (Output Monitoring and Validation): Establecer mecanismos automatizados de supervisión que inspeccionen el *output* del modelo en tiempo real. Estos mecanismos deben detectar anomalías, violaciones de las reglas de seguridad o cualquier intento de ejecución de comandos API o código antes de que la respuesta sea transmitida al usuario o a un servicio externo.