Cambio en el conjunto de datos (Dataset shift)
El término 'desplazamiento del conjunto de datos' (dataset shift) fue acuñado por primera vez por Quiñonero-Candela et al. para describir una situación fundamental en la fiabilidad de la IA: aquella en la que los datos utilizados para entrenar un modelo de Aprendizaje Automático presentan distribuciones estadísticas distintas a las que encuentra el modelo en la fase de prueba o, lo que es más crítico, durante su funcionamiento en tiempo de ejecución.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
3 - Otro
ID del riesgo
mit302
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
1. Prioridad Alta: Implementar sistemas robustos de monitoreo en tiempo real para detectar y cuantificar cualquier desviación estadística significativa (desplazamiento del conjunto de datos) entre las características de las entradas de datos en producción y las observadas durante la fase de entrenamiento, empleando análisis de la distribución y métricas estadísticas como la Distancia de Kullback-Leibler o la prueba de Chi-cuadrado. 2. Prioridad Media: Aplicar metodologías de aprendizaje de dominio (Domain Adaptation) o técnicas de aprendizaje robusto a la distribución (Distributionally Robust Optimization) en el diseño del modelo. Esto tiene como objetivo dotar al algoritmo de la capacidad intrínseca de generalizar y mantener el rendimiento a pesar de variaciones moderadas en la distribución de los datos. 3. Prioridad Media: Definir un protocolo automatizado y riguroso que establezca un umbral crítico de detección del desplazamiento de datos para activar de manera inmediata un ciclo de revalidación, reentrenamiento y posterior despliegue de una versión actualizada del modelo, minimizando así el riesgo de degradación del rendimiento en producción.