Comprometer privacidad infiriendo información privada
Las vulneraciones a la privacidad pueden ocurrir durante la fase de inferencia del modelo, aun cuando los datos privados de un individuo concreto no hayan estado presentes en el conjunto de entrenamiento. De forma similar a otros modelos estadísticos, un Modelo de Lenguaje (LM) puede realizar inferencias correctas sobre una persona basándose exclusivamente en datos correlacionales de otras personas, sin necesidad de acceder a la información que podría ser privada del sujeto específico. Estas inferencias precisas se manifiestan cuando los LMs intentan predecir el género, la raza, la orientación sexual, los ingresos o la religión de una persona a partir de la entrada que esta proporciona.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit238
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Implementar un Protocolo de Contexto y Confidencialidad en la Inferencia Establecer un mecanismo de control de integridad contextual (por ejemplo, un módulo de verificación de privacidad o un Protocolo de Contexto de Modelo - MCP) en la fase de post-despliegue. Este protocolo debe utilizar un razonamiento explícito para evaluar si la inferencia y posterior divulgación de atributos sensibles (como género, ingresos u orientación sexual) son apropiadas para el contexto específico de la interacción, limitando la respuesta del modelo si se vulneran las normas de privacidad. 2. Aplicación de Técnicas de Privacidad Diferencial y Adición de Ruido Emplear estrategias de privacidad diferencial y la adición de ruido calculado en el conjunto de datos de entrenamiento y, si es viable, en las salidas de la inferencia. Esto reduce la capacidad del modelo para memorizar o inferir con alta precisión información sobre individuos específicos al degradar la exactitud de las correlaciones, dificultando la reidentificación sin comprometer significativamente la utilidad del modelo a nivel agregado. 3. Refuerzo de la Minimización y Desidentificación de Datos en la Entrada Aplicar de manera estricta el principio de minimización de datos al gestionar la entrada del usuario, asegurando que el Modelo de Lenguaje solo procese los atributos estrictamente indispensables para la ejecución de la tarea. Complementariamente, implementar técnicas de desidentificación o enmascaramiento sobre cualquier información no esencial o cuasi-identificadora en el *input* antes de que el modelo realice la inferencia, reduciendo así la base de datos correlacional disponible.
EVIDENCIA ADICIONAL
Cuando este tipo de sistemas son utilizados por instituciones que ejercen un poder significativo —como las agencias de vigilancia gubernamentales o los empleadores—, los riesgos se manifiestan en dos vertientes. Por un lado, aquellos individuos clasificados correctamente pueden sufrir perjuicios al exponerse su información privada, aumentando el riesgo de una discriminación injusta. Por otro lado, las personas que resultan clasificadas erróneamente también se ven expuestas, de igual manera, a la posibilidad de sufrir una discriminación inmerecida.