Prompt leaking
Un ataque de fuga de *prompt* es un método de ciberseguridad en el cual un agente externo logra manipular un modelo de inteligencia artificial para que este revele su instrucción o mensaje de sistema (*system prompt*). Dicha instrucción no es más que un conjunto de directrices internas, reglas y parámetros de personalidad que los desarrolladores han codificado para delimitar el comportamiento y la funcionalidad del modelo. Al obtener acceso a este código fundamental, el atacante puede descubrir las vulnerabilidades, explotar los límites de seguridad impuestos o, en última instancia, obligar al modelo a realizar acciones para las cuales no fue diseñado.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit1158
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Establecer la separación estricta de datos sensibles (e.g., credenciales, *tokens* de acceso, claves API) del contenido del *prompt* del sistema, asegurando su gestión a través de sistemas externos con controles de acceso robustos para evitar la exfiltración directa de secretos. 2. Delegar los controles de seguridad críticos (e.g., comprobaciones de autorización, límites de privilegios, lógica de negocio esencial) a módulos de aplicación externos y deterministas que operen independientemente del modelo de lenguaje, evitando la dependencia del *prompt* del sistema para la aplicación de las políticas de seguridad. 3. Implementar mecanismos de validación y sanitización rigurosa de las entradas del usuario (*Input Validation*) y aplicar el monitoreo de salidas (*Output Monitoring*) con guardarraíles (*guardrails*) para detectar y bloquear proactivamente la divulgación inadvertida o transformada del *prompt* del sistema.