2. Privacidad y Seguridad2 - Post-despliegue

Violación de Privacidad

Modelos de *machine learning* son inherentemente susceptibles a lo que se conoce como *ataques de privacidad de datos*. Estos ataques son métodos sofisticados, orquestados por actores malintencionados, que buscan *inferir o extraer información sensible* de los datos de entrenamiento o del sistema general. El vector de ataque principal consiste en enviar *consultas (queries) particularmente diseñadas* al modelo, analizando sus respuestas para decodificar y revelar datos que deberían permanecer privados

Fuente: MIT AI Risk Repositorymit454

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit454

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Implementación de Privacidad Diferencial (DP) Aplicar mecanismos rigurosos de Privacidad Diferencial (como DP-SGD) durante la fase de entrenamiento del modelo. Esto consiste en introducir ruido estadístico calibrado en los gradientes o consultas para limitar formalmente la contribución de cualquier registro de datos individual. De esta manera, se ofrecen garantías matemáticas contra ataques de inferencia de membresía, contrarrestando el efecto de memorización del modelo. 2. Adopción de Arquitecturas Descentralizadas y Criptografía Utilizar el Aprendizaje Federado (Federated Learning, FL) para descentralizar el entrenamiento, asegurando que los datos sensibles permanezcan en los dispositivos locales y solo se compartan las actualizaciones del modelo. Complementar el FL con técnicas criptográficas, como el Cifrado Homomórfico (HE) o la Computación Multipartita Segura (SMPC), para proteger las actualizaciones del modelo durante la fase de agregación en el servidor central. 3. Preprocesamiento de Datos y Auditoría Proactiva Antes de la capacitación, emplear técnicas de anonimización avanzadas, como la generación de datos sintéticos que repliquen las propiedades estadísticas o la k-anonimidad, para eliminar o transformar identificadores. De forma continua, realizar auditorías de seguridad y privacidad utilizando métricas cuantificables (como el *privacy risk score*) y ataques de inferencia de membresía para identificar y mitigar activamente las muestras de datos con mayor riesgo de exposición.

EVIDENCIA ADICIONAL

Las redes neuronales profundas no solo aprenden patrones, sino que *memorizan* detalles específicos del conjunto de entrenamiento. Esta memorización es la que expone una amplia gama de información confidencial—desde los datos de entrenamiento originales y la pertenencia de una muestra al conjunto, hasta la arquitectura interna y los hiperparámetros del modelo—incrementando drásticamente su vulnerabilidad a los ataques a la privacidad en comparación con algoritmos más simples.