Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Privacy and data collection concerns (data protection concerns)

Los conjuntos de datos utilizados para entrenar modelos de Inteligencia Artificial (IA) incorporan datos personales, lo cual suscita múltiples inquietudes éticas y de seguridad. La preocupación fundamental es la inclusión de información sensible —como nombres, números de identificación o datos de seguridad social— sin el conocimiento ni el consentimiento de los individuos afectados. Un problema particularmente complejo es el fenómeno de la "memorización de datos": los modelos de IA avanzados tienen la capacidad de retener secuencias específicas de sus datos de entrenamiento y, al ser solicitados, pueden "regurgitarlas" textualmente, provocando una fuga directa de información personal. Además, incluso si no se produce una fuga por memorización directa, la IA generativa puede identificar y revelar patrones o estructuras de información que facilitan a usuarios maliciosos descubrir detalles privados.

Fuente: MIT AI Risk Repositorymit699

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit699

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Minimización Rigurosa de Datos y Gobernanza desde el Diseño Adoptar el principio de "Privacidad desde el Diseño" y limitar la recopilación de datos de entrenamiento solo a aquella información estrictamente necesaria para el propósito del modelo (minimización de datos) Ello debe complementarse con la clasificación de datos por sensibilidad y su anonimización o seudonimización antes de la ingesta. 2. Aplicación de Técnicas de Preservación de la Privacidad Implementar mecanismos técnicos avanzados para mitigar la memorización de datos y la inferencia, incluyendo la Privacidad Diferencial durante la fase de entrenamiento y el uso de filtros de post-generación para redactar o bloquear la salida de información sensible en tiempo real (secreto de escaneo/detección de fuga). 3. Control de Acceso Granular y Monitoreo Continuo Establecer políticas de control de acceso basadas en roles (RBAC) para asegurar que solo el personal autorizado interactúe con los conjuntos de datos sensibles y los modelos entrenados. Además, implementar sistemas de monitoreo continuo (p. ej., UEBA) para auditar el comportamiento del modelo y detectar patrones de consulta anómalos o intentos de extracción de datos post-despliegue.