2. Privacidad y Seguridad2 - Post-despliegue

Privacidad

El riesgo de privacidad y la consecuente pérdida o perjuicio que surge cuando un modelo de Machine Learning, a través de su arquitectura o sus predicciones, filtra inadvertidamente información personal sensible (PII) que formó parte de su conjunto de datos de entrenamiento

Fuente: MIT AI Risk Repositorymit201

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit201

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Establecer un marco de Gobernanza de Datos exhaustivo que aplique los principios de minimización de datos (recolectar solo lo estrictamente necesario) y anonimización/seudonimización irreversible antes de la ingesta y el entrenamiento del modelo. 2. Integrar tecnologías de mejora de la privacidad (PETs), como la Privacidad Diferencial (DP) para inyectar ruido en los parámetros del modelo o la Computación Multipartita Segura (SMC), con el fin de proteger la información sensible durante las fases de entrenamiento y de inferencia. 3. Implementar procesos de validación rigurosos que incluyan auditorías y evaluaciones de seguridad especializadas (como ataques de inferencia de pertenencia) para detectar y mitigar vulnerabilidades inherentes al modelo que permitan la extracción o filtración de datos de entrenamiento.

EVIDENCIA ADICIONAL

Aunque en esta sección nos centramos únicamente en la privacidad, adoptamos la definición de datos personales del Reglamento General de Protección de Datos (RGPD) por su amplia cobertura: "toda información sobre una persona física identificada o identificable". Si bien las violaciones de privacidad tradicionalmente se han originado por bases de datos comprometidas, lo cual puede mitigarse con una adecuada gobernanza de datos, es crucial destacar los riesgos específicos inherentes a los sistemas de Aprendizaje Automático (ML). Por ejemplo, a pesar de que el aprendizaje federado se propuso para evitar el almacenamiento centralizado de datos de entrenamiento, las investigaciones señalan que aún es posible recuperar ejemplos de entrenamiento a partir de un modelo aprendido de esta manera. De hecho, se ha demostrado que es posible extraer directamente de un modelo de ML tanto información sobre los datos de entrenamiento como, en algunos casos, los propios ejemplos. En consecuencia, la mera protección de los datos de entrenamiento ya no es suficiente para garantizar la privacidad.