Fuga de Prompt
Este fenómeno constituye una vulnerabilidad crítica conocida como "extracción de *prompt*" o fuga de instrucciones de sistema. Consiste en que, mediante el análisis ingenioso de las respuestas generadas por el modelo, un adversario puede inferir y reconstruir parcialmente las directrices internas (el *prompt* de sistema) que fueron diseñadas para permanecer secretas. La consecuencia directa es la potencial obtención de información sensible sobre la configuración, las reglas operacionales o las defensas propietarias del sistema de inteligencia artificial.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit424
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Implementar la segregación estricta de datos sensibles del lenguaje del prompt de sistema. Los elementos críticos (ej. credenciales, claves API, estructuras de permisos, nombres de bases de datos) deben externalizarse y gestionarse mediante mecanismos de control de acceso y almacenamiento independientes del modelo de lenguaje. 2. Establecer un protocolo riguroso de validación y sanitización de entradas del usuario. Esto incluye la implementación de filtros para patrones de inyección conocidos y el uso de delimitadores/estructuras de mensajes basados en roles (Sistema/Usuario) para diferenciar inequívocamente las instrucciones legítimas del contenido variable del usuario. 3. Evitar la delegación de controles de seguridad críticos (ej. separación de privilegios, validación de límites de autorización) al LLM, empleando en su lugar sistemas de guardarraíl (guardrails) independientes para auditar y restringir su comportamiento. Adicionalmente, realizar un monitoreo continuo de la salida para detectar patrones anómalos o la exposición inadvertida de las instrucciones internas.
EVIDENCIA ADICIONAL
La investigación en seguridad de la IA se centra en tres pilares conceptuales clave para garantizar sistemas robustos y beneficiosos. Primero, la **alineación del modelo** es fundamental, optimizando los resultados de los grandes modelos de lenguaje (LLMs) para que reflejen los valores humanos. Segundo, para validar la eficacia de los flujos de trabajo asistidos por IA, se aplica la **Teoría Estadística de la Decisión**. Esto permite establecer métricas objetivas sobre la *confianza adecuada* del operador humano en la recomendación algorítmica, más allá de la mera interpretación de señales. Tercero, y crucial para una colaboración equitativa, es la necesidad de que la IA incorpore una comprensión explícita de las intenciones del usuario. Se propone una memoria inspirada en la **Teoría de la Mente** para los LLMs, como elemento esencial para una sinergia humano-máquina verdaderamente productiva.