Volver al repositorio MIT
2. Privacidad y Seguridad1 - Pre-despliegue

Scraping para datos de entrenamiento

La extracción masiva de información personal, o *scraping*, para el desarrollo de herramientas de inteligencia artificial generativa, representa una seria erosión del control del consumidor sobre su propia huella digital. Este proceso utiliza datos con fines que superan con creces el consentimiento inicial otorgado, a menudo para aplicaciones que el individuo jamás habría imaginado al momento de su publicación *online*. Si bien la mera retención de datos extraídos podría no ser perjudicial *per se*, la amenaza real reside en la capacidad de combinar múltiples conjuntos de información. Datos que resultan insignificantes o no sensibles al estar dispersos se tornan extremadamente reveladores cuando se consolidan en una única base de conocimiento, permitiendo la elaboración de inferencias altamente precisas sobre perfiles personales o patrones poblacionales. Finalmente, al generar una copia estática de la información en un punto temporal específico, el *scraping* despoja al individuo de su prerrogativa fundamental de modificar o eliminar activamente dichos datos del ámbito público, haciendo que la versión capturada perdure indefinidamente fuera de su alcance.

Fuente: MIT AI Risk Repositorymit489

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit489

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Establecer mecanismos rigurosos de procedencia y consentimiento de datos, prohibiendo categóricamente el uso de datos personales obtenidos mediante *scraping* o de origen ambiguo para el entrenamiento de herramientas de inteligencia artificial generativa. Esto debe complementarse con la implementación de un proceso auditable que garantice el efectivo "derecho al olvido" y la capacidad de alteración de la información por parte del individuo, abordando la preocupación por la copia estática de los datos. 2. Implementar tecnologías de mejora de la privacidad (*Privacy Enhancing Technologies* - PETs) y técnicas avanzadas de anonimización o seudonimización (tales como la privacidad diferencial) *antes* de la agregación de conjuntos de datos. Este control técnico es fundamental para mitigar el riesgo de re-identificación, la inferencia de información sensible y la explotación de datos no sensibles combinados, asegurando que la consolidación de información no comprometa la privacidad individual. 3. Instaurar un Marco de Gobierno de IA y un Comité de Ética independientes con la autoridad para auditar continuamente la procedencia y el uso de los datos de entrenamiento, y para monitorear la alineación con los estándares éticos y el panorama regulatorio en evolución. Dicho comité debe ejercer la supervisión sobre el ciclo de vida de los datos para garantizar la transparencia y la rendición de cuentas en las prácticas de recolección opaca.