Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

División de datos inapropiada

El desarrollo de la inteligencia artificial impulsada por datos exige una partición rigurosa del conjunto de datos anotado en tres subconjuntos fundamentales: entrenamiento, validación y, crucialmente, el conjunto de prueba. Es imperativo que este último se reserve estrictamente para la evaluación final y jamás se incorpore al proceso de desarrollo o ajuste del modelo. Emplear el conjunto de prueba durante la fase de entrenamiento compromete la integridad de la estrategia de validación, que es el pilar fundamental de la garantía de calidad y la fiabilidad de un sistema de IA.

Fuente: MIT AI Risk Repositorymit887

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit887

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Establecer un protocolo estricto de segregación del conjunto de prueba, reservándolo exclusivamente para la evaluación final no sesgada del rendimiento. Bajo ninguna circunstancia debe utilizarse este subconjunto de datos para el entrenamiento, la validación o la selección iterativa de hiperparámetros del modelo. 2. Implementar un pipeline de preprocesamiento y normalización de datos que se ajuste (calcule medias, varianzas o escalados) únicamente sobre el conjunto de entrenamiento. Estas transformaciones deben aplicarse posteriormente a los conjuntos de validación y prueba para evitar la fuga de información estadística del conjunto de evaluación al proceso de desarrollo. 3. Aplicar técnicas de muestreo estratificado y de verificación de duplicados para garantizar que el conjunto de prueba sea estadísticamente significativo y representativo de la distribución de clases y características del conjunto de datos completo, y que no contenga ejemplos idénticos a los del conjunto de entrenamiento.