División de datos inapropiada
El desarrollo de la inteligencia artificial impulsada por datos exige una partición rigurosa del conjunto de datos anotado en tres subconjuntos fundamentales: entrenamiento, validación y, crucialmente, el conjunto de prueba. Es imperativo que este último se reserve estrictamente para la evaluación final y jamás se incorpore al proceso de desarrollo o ajuste del modelo. Emplear el conjunto de prueba durante la fase de entrenamiento compromete la integridad de la estrategia de validación, que es el pilar fundamental de la garantía de calidad y la fiabilidad de un sistema de IA.
ENTIDAD
1 - Humano
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit887
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.0 > Seguridad, fallos y limitaciones del sistema de IA
Estrategia de mitigacion
1. Establecer un protocolo estricto de segregación del conjunto de prueba, reservándolo exclusivamente para la evaluación final no sesgada del rendimiento. Bajo ninguna circunstancia debe utilizarse este subconjunto de datos para el entrenamiento, la validación o la selección iterativa de hiperparámetros del modelo. 2. Implementar un pipeline de preprocesamiento y normalización de datos que se ajuste (calcule medias, varianzas o escalados) únicamente sobre el conjunto de entrenamiento. Estas transformaciones deben aplicarse posteriormente a los conjuntos de validación y prueba para evitar la fuga de información estadística del conjunto de evaluación al proceso de desarrollo. 3. Aplicar técnicas de muestreo estratificado y de verificación de duplicados para garantizar que el conjunto de prueba sea estadísticamente significativo y representativo de la distribución de clases y características del conjunto de datos completo, y que no contenga ejemplos idénticos a los del conjunto de entrenamiento.