Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Priming de prompt

El principio fundamental de los modelos generativos es su tendencia a emular la estructura y el contenido de los datos que procesan. Esta característica, si bien es esencial para su funcionamiento, introduce una vulnerabilidad conocida como 'fuga o extracción de datos'. Específicamente, al incorporar información sensible en la instrucción (o *prompt*), se incrementa la probabilidad de que el modelo replique o genere datos de naturaleza similar en su respuesta. Más aún, si se incluyeron datos personales en el conjunto de entrenamiento del modelo, existe un riesgo intrínseco y demostrable de que esta información, memorizada por el sistema, pueda ser inadvertidamente o maliciosamente extraída a través de técnicas de ingeniería inversa del *prompt*.

Fuente: MIT AI Risk Repositorymit1160

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1160

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar protocolos rigurosos de Prevención de Pérdida de Datos (DLP) y controles de acceso a nivel de la interfaz. Esto incluye la aplicación de filtros de redacción, enmascaramiento o cifrado en el punto de entrada para evitar que la Información de Identificación Personal (PII) o datos corporativos sensibles sean ingresados en el *prompt* por usuarios, intencionalmente o por descuido. 2. Establecer un marco de gobernanza estricto y continuo que incluya la segregación de entornos (por ejemplo, el uso exclusivo de APIs cerradas o LLMs autoalojados/orientados al dominio) y la capacitación obligatoria para empleados, enfatizando la prohibición de compartir datos confidenciales con modelos de IA públicos. 3. Desarrollar y mantener mecanismos de validación de entradas (*input sanitization*) y ajuste fino (*model tuning*) adversario. Esto busca fortalecer la robustez del modelo contra técnicas de ingeniería inversa del *prompt* (*prompt priming* y *prompt injection*) para prevenir la extracción maliciosa de datos de su conjunto de entrenamiento o de interacciones previas.