Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Datos de entrenamiento y validación

El riesgo de sesgo e insuficiencia de los datos. Este concepto se refiere a las posibles fallas en el rendimiento o la equidad del sistema, originadas por la selección, la representatividad o la calidad de los conjuntos de datos empleados para su entrenamiento y validación.

Fuente: MIT AI Risk Repositorymit191

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit191

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Implementar un proceso riguroso de gobernanza y auditoría de datos que garantice la recopilación de conjuntos de datos de entrenamiento y validación que sean completos, equilibrados y representativos de la población objetivo, minimizando el sesgo sociodemográfico e histórico en el origen. 2. Realizar auditorías algorítmicas y análisis de subgrupos de manera sistemática para evaluar el rendimiento, la equidad y la precisión del modelo en cohortes específicas, empleando herramientas de detección de sesgos y aplicando técnicas de mitigación (como el aumento de datos o el ajuste de la función de pérdida) para corregir desbalances. 3. Elaborar y mantener Model Cards (etiquetas de transparencia) que documenten la fuente, las características, la representatividad y las limitaciones conocidas de los datos de entrenamiento y validación, permitiendo que los usuarios evalúen la idoneidad y el riesgo potencial del sistema.

EVIDENCIA ADICIONAL

Dada su naturaleza inherentemente impulsada por los datos, el comportamiento de los sistemas de aprendizaje automático (ML) está fuertemente condicionado por la información utilizada para su entrenamiento. Un sistema de ML entrenado con datos que codifican sesgos históricos o sociales inevitablemente manifestará sesgos análogos en sus predicciones. Aparte del conjunto de entrenamiento, los conjuntos de datos de validación se emplean habitualmente para evaluar la capacidad del modelo para generalizar, ya sea a nuevos ejemplos de la misma distribución o a muestras con características diferentes (otras distribuciones). Los datos de validación representativos son cruciales para detectar posibles desajustes entre el entorno de entrenamiento y el de implementación, como la presencia de sesgos sociales o características espurias. A continuación, sintetizamos los riesgos clave de los datos específicos de los sistemas de ML, remitiendo al lector a Demchenko et al. [50] para una discusión detallada sobre las problemáticas generales relativas al Big Data.