Memorización en LLMs
La memorización en los Modelos de Lenguaje Grande (LLMs) se define como la capacidad del sistema para **recuperar y reproducir datos exactos** presentes en su conjunto de entrenamiento, mediante el uso de prefijos contextuales o *prompts* específicos. En esencia, cuando una entidad, particularmente una de información de identificación personal (PII), es **memorizada**, la introducción de una instrucción o frase inicial precisa (*prompt*) fuerza al modelo a generar la información confidencial. El mecanismo subyacente es la repetición de una secuencia ya vista. Un ejemplo claro es que, si el *string* "Que tengas un buen día!\n correo@ejemplo.com" existía en el *corpus* de entrenamiento, el modelo podría predecir con alta precisión el correo electrónico completo al ser estimulado únicamente con la frase "Que tengas un buen día!\n".
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit33
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Implementación de Mecanismos de Privacidad Diferencial (PD) Integrar técnicas de Privacidad Diferencial, como el Descenso de Gradiente con PD (DP-SGD), durante el entrenamiento del Modelo de Lenguaje Grande (LLM). Este enfoque introduce ruido controlado en el proceso de aprendizaje, limitando la influencia de cualquier punto de dato individual y proporcionando garantías formales contra la memorización y la subsiguiente regurgitación de información de identificación personal (PII). 2. Establecimiento de Barandillas de Validación y Filtrado de Salida (DLP) Desplegar sistemas de Prevención de Pérdida de Datos (DLP) como Barandillas de Validación de Salida. Estos sistemas deben inspeccionar en tiempo real la respuesta generada por el LLM antes de ser entregada al usuario, con el objetivo de detectar, enmascarar o bloquear proactivamente la exposición de PII, credenciales o fragmentos de datos confidenciales que provengan del conjunto de entrenamiento. 3. Saneamiento Riguroso y De-identificación del Conjunto de Datos de Entrenamiento Asegurar una gestión rigurosa de los datos de entrenamiento mediante la de-identificación, enmascaramiento o eliminación de toda información sensible antes de la ingesta del modelo. La minimización de datos en el corpus de entrenamiento reduce fundamentalmente la probabilidad de que el modelo pueda memorizar y reproducir inadvertidamente datos confidenciales.