Volver al repositorio MIT
6. Socioeconómico y Ambiental1 - Pre-despliegue

Procedencia de datos incierta

La procedencia de los datos se define como el rastreo riguroso del historial completo de una pieza de información, abarcando su titularidad, su punto de origen y todas las transformaciones que ha experimentado. La ausencia de metodologías estandarizadas y validadas para auditar dicha procedencia elimina la capacidad de garantizar dos pilares esenciales: la integridad del dato respecto a su fuente original y el cumplimiento de los términos de uso asociados a él.

Fuente: MIT AI Risk Repositorymit1142

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1142

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

1. Establecer un **Protocolo de Auditoría de Datos** de carácter obligatorio que documente de forma exhaustiva el historial, la fuente original, el método de adquisición y la base legal para el uso (licencias y términos) de cada componente del conjunto de entrenamiento. Esto constituye el fundamento para garantizar el cumplimiento normativo (p. ej., derechos de autor) y la integridad inicial del dato. 2. Implementar un **Sistema de Trazabilidad y Proveniencia *End-to-End*** que utilice mecanismos técnicos robustos, como el registro inmutable mediante cadenas de bloques o la vinculación criptográfica de metadatos, para rastrear y registrar automáticamente todas las transformaciones, movimientos y entidades que interactúan con el dato a lo largo de su ciclo de vida. Esto proporciona una cadena de custodia verificable y escalable. 3. Desarrollar **Estándares de Gobernanza de Adquisición** que exijan la revisión preventiva y la validación formal de la autenticidad y los derechos de uso de cualquier nueva fuente de datos antes de su integración al entrenamiento del modelo, priorizando la obtención proactiva de licencias explícitas para contenido de alto riesgo o volumen significativo.