2. Privacidad y Seguridad2 - Post-despliegue

Comprometer privacidad filtrando información privada

El riesgo de violación de la privacidad surge cuando un modelo de inteligencia artificial revela información veraz sobre características personales de un individuo, lo cual se debe a su capacidad de "memorizar" datos privados presentes en el *corpus* de entrenamiento en lugar de solo aprender patrones generales (Carlini et al., 2021).

Fuente: MIT AI Risk Repositorymit237

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit237

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

- Implementar rigurosamente técnicas de *Differential Privacy* (DP) durante la fase de entrenamiento, complementadas con la deduplicación del *corpus* de datos y el saneamiento exhaustivo para la eliminación o enmascaramiento de Información de Identificación Personal (PII), con el objetivo de mitigar la memorización involuntaria y la regurgitación de datos sensibles. - Desarrollar y aplicar métodos de *Knowledge Unlearning* (desaprendizaje de conocimiento) post-entrenamiento para la remoción dirigida y eficiente de datos específicos a solicitud de los usuarios, garantizando el cumplimiento del derecho a ser olvidado sin degradar sustancialmente la utilidad del modelo. - Establecer una arquitectura de seguridad de *Zero Trust* con controles de acceso estrictos y basados en roles para limitar las interacciones con el LLM, e incorporar mecanismos de monitoreo continuo en tiempo real y filtrado de la salida (*output post-processing*) para detectar y bloquear proactivamente la revelación de información confidencial.

EVIDENCIA ADICIONAL

Los modelos de lenguaje a gran escala (MLG) se entrenan con vastos conjuntos de datos que contienen información de personas. Esto genera un riesgo de violaciones de privacidad, ya que el modelo podría revelar directamente información personal incluida en su entrenamiento (Carlini et al., 2021). Dicha información puede haber terminado en los datos de entrenamiento sin que el individuo afectado sea responsable, por ejemplo, debido a filtraciones de datos o publicaciones de terceros en redes en línea (Mao et al., 2011).