Privacy and data collection concerns (collecting personal information or personally identifiable information)
Los desarrolladores de Inteligencia Artificial Generativa entrenan sus modelos con vastos conjuntos de datos, obtenidos frecuentemente mediante el rastreo automatizado (web scraping) de sitios web, lo que conlleva la posible inclusión de datos personales o Información de Identificación Personal (IIP). En la fase de entrenamiento inicial, la prioridad científica de los desarrolladores reside en la *cantidad*, la *variedad* y la *calidad* de los datos, no tanto en su contenido personal, aunque es inevitable que ciertos conjuntos de datos rastreados contengan IIP de forma inadvertida. El riesgo se intensifica cuando otros desarrolladores ("aguas abajo") integran esta tecnología en sus productos: al realizar el "ajuste fino" (fine-tuning) de un modelo pre-entrenado, recurren a sus propios datos internos. Estos datos, por su naturaleza operacional, suelen tener una concentración significativa de información personal.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit698
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Integrar el principio de Privacidad desde el Diseño (Privacy by Design) como pilar fundamental, aplicando rigurosamente la minimización de datos. Esto requiere limitar la recolección, uso y retención de Información de Identificación Personal (IIP) y datos sensibles únicamente a lo estrictamente necesario para el entrenamiento y el propósito legítimo del modelo. 2. Emplear Tecnologías de Mejora de la Privacidad (PETs) en todas las etapas del desarrollo. Esto abarca la implementación de técnicas robustas de anonimización y seudoanonimización en los conjuntos de datos de entrenamiento, la utilización de datos sintéticos cuando sea viable y el cifrado de la información personal tanto en reposo como en tránsito. 3. Establecer un marco formal de Gobernanza de la IA y Cumplimiento Normativo. Dicho marco debe definir y documentar la base legal válida para la adquisición de datos (incluido el *web scraping*), garantizar la transparencia hacia los interesados sobre el uso de su información, y exigir la realización de Evaluaciones de Impacto relativas a la Protección de Datos (DPIA) para aplicaciones de alto riesgo.