Ataque de inyección de prompt
El ataque de inyección de *prompt* consiste en una manipulación avanzada del texto de entrada que busca subvertir el propósito o las directrices originales de un modelo de inteligencia artificial generativa. Al alterar la estructura, las instrucciones o la información dentro de la solicitud (el *prompt*), el atacante fuerza al modelo a desatender sus parámetros de seguridad y producir una respuesta o acción inesperada y potencialmente maliciosa.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1155
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar la separación estricta de roles en el diseño del prompt (instrucciones del sistema *vs.* datos del usuario) y aplicar procesos rigurosos de **validación y saneamiento de entradas** (p. ej., delimitadores, codificación y filtrado con expresiones regulares) para garantizar que el LLM interprete el contenido del usuario como *datos* y no como comandos. 2. Establecer una estrategia de **Defensa en Profundidad** mediante la implementación de **filtros de moderación de contenido (guardrails)** a nivel de entrada y salida, complementado con el principio de **menor privilegio** (Least Privilege) en el control de acceso a herramientas y bases de datos. 3. Implementar **monitoreo continuo y análisis de anomalías** en las respuestas del modelo (salida) para detectar patrones que sugieran un intento de inyección o fuga de información, asegurando la trazabilidad de todas las interacciones mediante un **registro detallado (logging)**.