Volver al repositorio MIT
2. Privacidad y Seguridad3 - Otro

Prompt leaking

Un ataque de fuga de *prompt* es un método de ciberseguridad en el cual un agente externo logra manipular un modelo de inteligencia artificial para que este revele su instrucción o mensaje de sistema (*system prompt*). Dicha instrucción no es más que un conjunto de directrices internas, reglas y parámetros de personalidad que los desarrolladores han codificado para delimitar el comportamiento y la funcionalidad del modelo. Al obtener acceso a este código fundamental, el atacante puede descubrir las vulnerabilidades, explotar los límites de seguridad impuestos o, en última instancia, obligar al modelo a realizar acciones para las cuales no fue diseñado.

Fuente: MIT AI Risk Repositorymit1158

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1158

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Establecer la separación estricta de datos sensibles (e.g., credenciales, *tokens* de acceso, claves API) del contenido del *prompt* del sistema, asegurando su gestión a través de sistemas externos con controles de acceso robustos para evitar la exfiltración directa de secretos. 2. Delegar los controles de seguridad críticos (e.g., comprobaciones de autorización, límites de privilegios, lógica de negocio esencial) a módulos de aplicación externos y deterministas que operen independientemente del modelo de lenguaje, evitando la dependencia del *prompt* del sistema para la aplicación de las políticas de seguridad. 3. Implementar mecanismos de validación y sanitización rigurosa de las entradas del usuario (*Input Validation*) y aplicar el monitoreo de salidas (*Output Monitoring*) con guardarraíles (*guardrails*) para detectar y bloquear proactivamente la divulgación inadvertida o transformada del *prompt* del sistema.