Priming de prompt
El principio fundamental de los modelos generativos es su tendencia a emular la estructura y el contenido de los datos que procesan. Esta característica, si bien es esencial para su funcionamiento, introduce una vulnerabilidad conocida como 'fuga o extracción de datos'. Específicamente, al incorporar información sensible en la instrucción (o *prompt*), se incrementa la probabilidad de que el modelo replique o genere datos de naturaleza similar en su respuesta. Más aún, si se incluyeron datos personales en el conjunto de entrenamiento del modelo, existe un riesgo intrínseco y demostrable de que esta información, memorizada por el sistema, pueda ser inadvertidamente o maliciosamente extraída a través de técnicas de ingeniería inversa del *prompt*.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1160
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar protocolos rigurosos de Prevención de Pérdida de Datos (DLP) y controles de acceso a nivel de la interfaz. Esto incluye la aplicación de filtros de redacción, enmascaramiento o cifrado en el punto de entrada para evitar que la Información de Identificación Personal (PII) o datos corporativos sensibles sean ingresados en el *prompt* por usuarios, intencionalmente o por descuido. 2. Establecer un marco de gobernanza estricto y continuo que incluya la segregación de entornos (por ejemplo, el uso exclusivo de APIs cerradas o LLMs autoalojados/orientados al dominio) y la capacitación obligatoria para empleados, enfatizando la prohibición de compartir datos confidenciales con modelos de IA públicos. 3. Desarrollar y mantener mecanismos de validación de entradas (*input sanitization*) y ajuste fino (*model tuning*) adversario. Esto busca fortalecer la robustez del modelo contra técnicas de ingeniería inversa del *prompt* (*prompt priming* y *prompt injection*) para prevenir la extracción maliciosa de datos de su conjunto de entrenamiento o de interacciones previas.