2. Privacidad y Seguridad2 - Post-despliegue

Privacidad - Ataque de Inferencia de Atributos (AIA)

Este concepto aborda la capacidad crítica de un modelo de inteligencia artificial para realizar una **inferencia de datos no autorizada**, logrando deducir o extraer información privada o sensible a partir de sus conjuntos de entrenamiento, los *prompts* de consulta o textos externos.

Fuente: MIT AI Risk Repositorymit1365

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1365

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Priorizar la implementación de **Mecanismos de Defensa Basados en *Machine Learning* Adversarial (e.g., AttriGuard o NOISY)**, que emplean el enmascaramiento o la alteración controlada del vector de puntuaciones de predicción mediante la inyección estratégica de ruido. Esta técnica se enfoca en frustrar el clasificador del adversario sin comprometer la utilidad del modelo principal. 2. Aplicar **Técnicas de Preservación de la Privacidad Fundamentales, como la Privacidad Diferencial (DP)**, durante la fase de entrenamiento del modelo. Aunque su eficacia directa contra ataques de inferencia de atributos (AIA) es limitada en algunos escenarios post-despliegue, su garantía de indistinguibilidad a nivel de usuario/registro es crítica para mitigar la fuga de correlaciones estadísticas. 3. Establecer una política de **Minimización de Datos y Atributos Sensibles (*Data Minimization*)**, asegurando que el modelo sea entrenado y opere únicamente con el subconjunto de datos estrictamente necesario. Esto limita la cantidad de atributos a partir de los cuales un adversario podría realizar inferencias.