2. Privacidad y Seguridad2 - Post-despliegue

Privacy - Prompt Inversion Attack (PIA)

Sustracción no autorizada de los prompts confidenciales

Fuente: MIT AI Risk Repositorymit1364

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1364

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Aplicar el Principio de Mínimo Privilegio y Aislamiento de Contexto (Least Privilege and Context Isolation)Estrategia: Evitar la inclusión de información sensible, propietaria o confidencial (p. ej., claves de API, datos de autenticación o instrucciones críticas de negocio) en la plantilla del *prompt* que sea inherentemente innecesaria para la respuesta. Se debe operar bajo la premisa de que el *prompt* del sistema es potencialmente extraíble por un adversario motivado. Restringir rigurosamente el alcance y los permisos de acceso a herramientas (plugins) y sistemas externos del LLM.2. Implementar Detección de Patrones Anómalos y Restricción de Consultas (Anomaly Detection and Query Throttling)Estrategia: Monitorizar continuamente el comportamiento de las consultas (*queries*). Establecer límites de tasa (*rate-limiting*) estrictos por usuario o IP y emplear análisis de similitud semántica para identificar y alertar sobre ráfagas de *prompts* idénticos o con baja varianza (distancia de Levenshtein mínima), lo cual es indicativo de un intento de reconstrucción iterativa del *prompt*. Limitar la verbosidad y el detalle de las respuestas, absteniéndose de exponer métricas como probabilidades de *token* que puedan ser explotadas en el proceso de inversión.3. Emplear Estructuras de Prompt Rigurosamente Delimitadas (Structured Prompting)Estrategia: Utilizar formatos estructurados y delimitadores únicos (*delimiters*) para establecer una separación arquitectónica clara entre las instrucciones internas del sistema y la entrada de datos proporcionada por el usuario. Aunque esto está más directamente relacionado con la mitigación de la Inyección de *Prompts* (PI), la distinción explícita reduce el riesgo de confusión del modelo y la potencial fuga accidental o maliciosa de las instrucciones de alto valor contenidas en el *prompt* de seguridad.