Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Contaminación de datos

La contaminación de datos es un riesgo crítico que ocurre cuando el conjunto de entrenamiento de un modelo de IA incluye información inapropiada o errónea. Específicamente, esto puede referirse a datos que no concuerdan con el objetivo final del modelo, o a un fallo más técnico: la inclusión accidental de datos que estaban destinados a ser usados solo para la validación y evaluación, lo que se conoce como "fuga de datos" (data leakage). Esto último compromete severamente la capacidad de medir el rendimiento real del sistema.

Fuente: MIT AI Risk Repositorymit1150

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1150

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

- Implementación de Protocolos Rigurosos de Gobernanza y Validación de Datos: Aplicar controles de acceso estrictos, utilizar canales cifrados para la ingesta y establecer políticas automatizadas de validación de datos para asegurar la coherencia de formato y etiquetado, auditando cada adición o modificación. - Segmentación Aislada de Conjuntos de Datos Críticos: Mantener rigurosamente separados los conjuntos de datos de entrenamiento, validación y prueba para prevenir la "fuga de datos" (data leakage). Es crucial el aislamiento en entornos controlados (sandboxing) y la verificación del impacto en modelos a pequeña escala antes de la integración completa. - Despliegue de Mecanismos de Detección y Defensa Proactiva: Emplear análisis estadísticos avanzados y técnicas de agrupamiento (clustering) para identificar muestras atípicas (outliers). Además, considerar el entrenamiento adversarial para mitigar ataques de contaminación sigilosos que busquen inducir correlaciones artificiales.