2. Privacidad y Seguridad2 - Post-despliegue

Extraction attack

El ataque de inferencia de atributos (Attribute Inference Attack) es un vector de ataque a la privacidad cuyo objetivo principal es deducir características sensibles o información privada específica de los individuos que participaron en el entrenamiento de un modelo de inteligencia artificial. Este ataque se materializa cuando un adversario ya posee algún conocimiento *a priori* sobre la estructura o la naturaleza de los datos originales, utilizando esa información privilegiada para inferir y clasificar atributos que se consideran confidenciales

Fuente: MIT AI Risk Repositorymit1156

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1156

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar técnicas de **enmascaramiento o perturbación controlada de las puntuaciones de predicción** (score masking) utilizando principios de aprendizaje automático adversario (por ejemplo, AttriGuard o algoritmos basados en JSMA). El objetivo es inyectar un nivel de ruido calculado en el vector de resultados del modelo para reducir drásticamente la capacidad del atacante para inferir atributos sensibles, manteniendo la utilidad general para usuarios legítimos. 2. Adoptar el marco de **Privacidad Diferencial (DP)**, especialmente a través del Descenso de Gradiente Estocástico Diferencialmente Privado (DP-SGD) o "clipping automático" en la fase de entrenamiento. Esta medida limita formalmente la influencia que cualquier punto de datos individual puede tener en el modelo final, haciendo que la inferencia de la presencia o ausencia de atributos privados sea estadísticamente inviable para el adversario. 3. Utilizar **arquitecturas de aprendizaje y desaprendizaje seguras**, como el "Desaprendizaje de Atributos Federados" (Attribute Unlearning) en entornos de Aprendizaje Federado. Este enfoque permite eliminar de forma activa información asociada a atributos sensibles de las representaciones (embeddings) de los usuarios después del entrenamiento inicial, previniendo ataques de inferencia post-despliegue mientras se preserva el rendimiento del modelo.