Data-related (Insufficient quality control in data collection process)
La calidad de los datos es un pilar fundamental para la seguridad y la fiabilidad de la inteligencia artificial. La carencia de métodos estandarizados y de una infraestructura suficiente —que incluye procesos de control de calidad— para la recopilación de datos, especialmente en dominios de alto riesgo o para conjuntos de datos de referencia (benchmarks), compromete intrínsecamente su utilidad. Esta falta de rigor introduce riesgos críticos como el envenenamiento del conjunto de datos (dataset poisoning), la violación inadvertida de derechos de autor, o las fugas del conjunto de prueba (test set leakages), un fenómeno que contamina el entrenamiento y, consecuentemente, invalida las métricas de rendimiento reportadas por el modelo.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit976
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. **Establecer un Marco Integral de Gobernanza de Datos** Definir y documentar políticas, estándares y procedimientos formales que rijan todo el ciclo de vida del dato, desde su adquisición hasta su uso en el entrenamiento del modelo. Esto incluye la asignación clara de roles y responsabilidades de mayordomía de datos (*data stewardship*) para asegurar la rendición de cuentas, el cumplimiento de los criterios de calidad (como exactitud, completitud y consistencia, en línea con estándares como ISO 25024) y la minimización de riesgos legales, como la violación inadvertida de derechos de autor. 2. **Implementar Control de Calidad Continuo y Validación Rigurosa** Instaurar procesos automatizados de perfilado de datos, validación estricta y monitoreo continuo en tiempo real (*Continuous Control Monitoring*) dentro de las tuberías de datos (*data pipelines*). Esto debe incluir el uso de algoritmos de detección de anomalías y *outliers* para identificar y mitigar proactivamente datos contaminados (ej. *dataset poisoning*) o inconsistencias que puedan invalidar las métricas de rendimiento y la fiabilidad del modelo. 3. **Garantizar la Integridad y Trazabilidad Mediante Aislamiento y Procedencia** Aplicar el Principio de Menor Privilegio (*Principle of Least Privilege*) para limitar el acceso a los conjuntos de datos de entrenamiento críticos y utilizar canales seguros. Además, es imperativo establecer la trazabilidad de los datos (*Data Provenance* o Linaje) y aplicar una estricta separación entre los conjuntos de entrenamiento, validación y prueba para prevenir fugas del conjunto de prueba (*test set leakages*), asegurando que cualquier transformación o preprocesamiento se ajuste exclusivamente al conjunto de entrenamiento.