Contaminación de datos
La contaminación de datos es un riesgo crítico que ocurre cuando el conjunto de entrenamiento de un modelo de IA incluye información inapropiada o errónea. Específicamente, esto puede referirse a datos que no concuerdan con el objetivo final del modelo, o a un fallo más técnico: la inclusión accidental de datos que estaban destinados a ser usados solo para la validación y evaluación, lo que se conoce como "fuga de datos" (data leakage). Esto último compromete severamente la capacidad de medir el rendimiento real del sistema.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1150
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
- Implementación de Protocolos Rigurosos de Gobernanza y Validación de Datos: Aplicar controles de acceso estrictos, utilizar canales cifrados para la ingesta y establecer políticas automatizadas de validación de datos para asegurar la coherencia de formato y etiquetado, auditando cada adición o modificación. - Segmentación Aislada de Conjuntos de Datos Críticos: Mantener rigurosamente separados los conjuntos de datos de entrenamiento, validación y prueba para prevenir la "fuga de datos" (data leakage). Es crucial el aislamiento en entornos controlados (sandboxing) y la verificación del impacto en modelos a pequeña escala antes de la integración completa. - Despliegue de Mecanismos de Detección y Defensa Proactiva: Emplear análisis estadísticos avanzados y técnicas de agrupamiento (clustering) para identificar muestras atípicas (outliers). Además, considerar el entrenamiento adversarial para mitigar ataques de contaminación sigilosos que busquen inducir correlaciones artificiales.