2. Privacidad y Seguridad2 - Post-despliegue

Ataque de inferencia de atributos

El ataque de inferencia de atributos (Attribute Inference Attack) constituye una brecha de privacidad avanzada en la que un adversario interroga repetidamente un modelo de inteligencia artificial con el objetivo de extrapolar o deducir características sensibles (atributos) de los individuos que participaron en su entrenamiento. La mecánica de este ataque se basa fundamentalmente en que el atacante ya posee algún conocimiento parcial previo sobre la composición de los datos de entrenamiento, utilizando esa información auxiliar para inferir con éxito aquellos datos privados que el modelo debería mantener rigurosamente confidenciales.

Fuente: MIT AI Risk Repositorymit1162

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1162

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Aplicación de mecanismos de preservación de la privacidad basados en perturbación o desaprendizaje de atributos. Esto implica la adición estratégica de ruido (Noise Injection) a los datos públicos de entrada del usuario o la manipulación de las puntuaciones de predicción (score masking) para reducir la precisión de inferencia del adversario a niveles aleatorios. Alternativamente, utilizar el desaprendizaje de atributos (Attribute Unlearning) para eliminar información sensible de las representaciones internas del modelo después del entrenamiento, como es el caso de los sistemas de recomendación federados (ej. Aegis). 2. Implementación de controles de privacidad en la fase de diseño y entrenamiento. Esto incluye la aplicación de técnicas de Privacidad Diferencial (Differential Privacy) para limitar la contribución individual de los datos y prevenir el sobreajuste (overfitting), o la sanitización estricta de los datos mediante la eliminación de atributos altamente sensibles del conjunto de entrenamiento. La regularización del modelo también es esencial para fomentar la generalización y mitigar la fuga de datos. 3. Adopción de arquitecturas de aprendizaje automático seguras y mitigación de la vulnerabilidad dispar. Se recomienda utilizar tecnologías de mejora de la privacidad (PETs) como el Aprendizaje Federado (FL) o el Cifrado Homomórfico (HE) para proteger los datos durante el entrenamiento. Además, implementar defensas específicas, como Balanced Correlation Defense (BCorr), para neutralizar la "vulnerabilidad dispar" (disparate vulnerability) donde los ataques son desproporcionadamente efectivos contra grupos específicos de usuarios.