Scraping para datos de entrenamiento
La extracción masiva de información personal, o *scraping*, para el desarrollo de herramientas de inteligencia artificial generativa, representa una seria erosión del control del consumidor sobre su propia huella digital. Este proceso utiliza datos con fines que superan con creces el consentimiento inicial otorgado, a menudo para aplicaciones que el individuo jamás habría imaginado al momento de su publicación *online*. Si bien la mera retención de datos extraídos podría no ser perjudicial *per se*, la amenaza real reside en la capacidad de combinar múltiples conjuntos de información. Datos que resultan insignificantes o no sensibles al estar dispersos se tornan extremadamente reveladores cuando se consolidan en una única base de conocimiento, permitiendo la elaboración de inferencias altamente precisas sobre perfiles personales o patrones poblacionales. Finalmente, al generar una copia estática de la información en un punto temporal específico, el *scraping* despoja al individuo de su prerrogativa fundamental de modificar o eliminar activamente dichos datos del ámbito público, haciendo que la versión capturada perdure indefinidamente fuera de su alcance.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit489
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Establecer mecanismos rigurosos de procedencia y consentimiento de datos, prohibiendo categóricamente el uso de datos personales obtenidos mediante *scraping* o de origen ambiguo para el entrenamiento de herramientas de inteligencia artificial generativa. Esto debe complementarse con la implementación de un proceso auditable que garantice el efectivo "derecho al olvido" y la capacidad de alteración de la información por parte del individuo, abordando la preocupación por la copia estática de los datos. 2. Implementar tecnologías de mejora de la privacidad (*Privacy Enhancing Technologies* - PETs) y técnicas avanzadas de anonimización o seudonimización (tales como la privacidad diferencial) *antes* de la agregación de conjuntos de datos. Este control técnico es fundamental para mitigar el riesgo de re-identificación, la inferencia de información sensible y la explotación de datos no sensibles combinados, asegurando que la consolidación de información no comprometa la privacidad individual. 3. Instaurar un Marco de Gobierno de IA y un Comité de Ética independientes con la autoridad para auditar continuamente la procedencia y el uso de los datos de entrenamiento, y para monitorear la alineación con los estándares éticos y el panorama regulatorio en evolución. Dicho comité debe ejercer la supervisión sobre el ciclo de vida de los datos para garantizar la transparencia y la rendición de cuentas en las prácticas de recolección opaca.