Gobernanza de datos
Estas evaluaciones abordan dos vectores de riesgo fundamentales en los Modelos de Lenguaje Grandes (LLMs). En primer lugar, cuantifican la propensión de los modelos a la *reproducción textual* o *regurgitación* de fragmentos específicos de su conjunto de datos de entrenamiento. En segundo lugar, investigan si los LLMs pueden involuntariamente *divulgar* o *filtrar* información sensible que el usuario les ha facilitado durante el proceso de interacción directa, conocido en la investigación como la fase de inferencia.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
3 - Otro
ID del riesgo
mit617
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Implementar la minimización de datos y la desinfección del corpus de entrenamiento, priorizando la deduplicación estricta de secuencias y el enmascaramiento o anonimización de la Información de Identificación Personal (PII) antes de la ingesta del modelo, mitigando el riesgo fundamental de la regurgitación textual. 2. Aplicar técnicas de Privacidad Diferencial durante el proceso de entrenamiento o ajuste fino (fine-tuning) para alterar los datos de manera controlada, ofreciendo una garantía formal de que la contribución de un registro de datos individual al modelo final es estadísticamente insignificante, reduciendo la capacidad de inferencia de membresía. 3. Establecer un sistema de defensa multicapa durante la fase de inferencia que combine: a) Controles de Acceso rigurosos basados en el principio de mínimo privilegio (Zero Trust) para el acceso a los sistemas back-end; y b) Filtrado de Contenido en tiempo real (entradas/salidas) para detectar y bloquear la divulgación involuntaria de información sensible por parte del modelo.