2. Privacidad y Seguridad2 - Post-despliegue

Ataque de inyección de prompt

El ataque de inyección de *prompt* consiste en una manipulación avanzada del texto de entrada que busca subvertir el propósito o las directrices originales de un modelo de inteligencia artificial generativa. Al alterar la estructura, las instrucciones o la información dentro de la solicitud (el *prompt*), el atacante fuerza al modelo a desatender sus parámetros de seguridad y producir una respuesta o acción inesperada y potencialmente maliciosa.

Fuente: MIT AI Risk Repositorymit1155

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1155

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar la separación estricta de roles en el diseño del prompt (instrucciones del sistema *vs.* datos del usuario) y aplicar procesos rigurosos de **validación y saneamiento de entradas** (p. ej., delimitadores, codificación y filtrado con expresiones regulares) para garantizar que el LLM interprete el contenido del usuario como *datos* y no como comandos. 2. Establecer una estrategia de **Defensa en Profundidad** mediante la implementación de **filtros de moderación de contenido (guardrails)** a nivel de entrada y salida, complementado con el principio de **menor privilegio** (Least Privilege) en el control de acceso a herramientas y bases de datos. 3. Implementar **monitoreo continuo y análisis de anomalías** en las respuestas del modelo (salida) para detectar patrones que sugieran un intento de inyección o fuga de información, asegurando la trazabilidad de todas las interacciones mediante un **registro detallado (logging)**.