Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Privacidad - Ataque de Extracción de Datos (DEA)

En el ámbito de la trazabilidad y la transparencia de los modelos de inteligencia artificial, este proceso se refiere a la **auditoría y recuperación de los fragmentos de texto exactos** que fueron consumidos por el modelo durante su fase de entrenamiento. Esencialmente, es la capacidad de **identificar las "fuentes" del conocimiento** de un Gran Modelo de Lenguaje (LLM). Este mecanismo es crucial para la seguridad de la IA, ya que permite verificar tres elementos fundamentales: la existencia de **sesgos** en el material de origen, la posible inclusión de **datos sensibles o privados**, y el riesgo de **infracción de derechos de autor** en el contenido que el modelo podría generar.

Fuente: MIT AI Risk Repositorymit1363

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1363

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Prioridad Alta: Implementar la **minimización de datos** y aplicar técnicas rigurosas de **anonimización o enmascaramiento de datos (data masking)**, como la supresión de identificadores explícitos (e.g., PII mediante NER o expresiones regulares) o la aplicación de *k-anonimidad*, durante la fase de recopilación y pre-entrenamiento. El objetivo es reducir el conjunto de información sensible que entra en el modelo, disminuyendo así el riesgo inherente de extracción. 2. Prioridad Media: Aplicar técnicas de **Privacidad Diferencial (Differential Privacy)** o **regularización** durante el proceso de entrenamiento. Estas estrategias añaden ruido calibrado a los datos o parámetros del modelo, lo que reduce la capacidad del sistema para memorizar ejemplos individuales del conjunto de entrenamiento y, por ende, mitigan la vulnerabilidad fundamental explotada por los ataques de extracción. 3. Prioridad Media: Establecer **límites de tasa (rate limiting)** y mecanismos de **control de acceso estricto** en las interfaces de consulta del modelo, complementados con un **monitoreo continuo** y sistemas de detección de anomalías. Esto restringe la capacidad de un adversario para realizar el gran número de consultas iterativas que son típicas de un ataque de extracción de datos, dificultando la reconstrucción de información privada a partir de las respuestas del modelo.