Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Inferencia de información privada

Finalmente, es crucial considerar que los Modelos de Lenguaje Grandes (LLM) poseen la capacidad de *inferir* información privada directamente de las entradas que procesan (los *prompts*), un riesgo que persiste incluso si dicha información sensible no estaba explícitamente contenida en su *corpus de entrenamiento*. Un caso ilustrativo de esta capacidad deductiva es cómo un LLM podría llegar a *deducir* características personales delicadas, como la raza o el género, basándose únicamente en la estructura o el contenido contextual proporcionado en la solicitud de entrada. Esto subraya una vulnerabilidad de privacidad por *inferencia* que trasciende la simple memorización de datos.

Fuente: MIT AI Risk Repositorymit385

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit385

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Implementar marcos de *Integridad Contextual (CI)*, como módulos ligeros (*PrivacyChecker*) o enfoques basados en Razonamiento y Aprendizaje por Refuerzo (CI-RL), para imponer directrices de privacidad en tiempo de inferencia. Esto asegura que la divulgación de información, incluso si es inferida, sea juzgada por su adecuación al contexto de la interacción y la tarea asignada. 2. Adoptar soluciones de *Inferencia Confidencial* mediante criptografía avanzada (ej. Cifrado Homomórfico o TEEs optimizados con sanitización) para que el procesamiento del *prompt* por el LLM ocurra sobre datos cifrados o dentro de entornos de ejecución confiable, garantizando que el texto sensible original permanezca inaccesible. 3. Desplegar *filtros dinámicos de sanitización y redacción a nivel de token* en la etapa de pre-procesamiento del *prompt* para ofuscar o eliminar proactivamente Identificadores de Información Personal (PII) y datos altamente sensibles. Este mecanismo opera como una compuerta de privacidad inicial antes de que el modelo pueda realizar la inferencia.