Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Curación de datos impropia

Esta subcategoría aborda las deficiencias críticas en la fase de adquisición y preparación de los conjuntos de datos empleados para el entrenamiento o ajuste fino de un modelo de IA. El riesgo reside en la introducción de sesgos o imprecisiones, como errores sistemáticos de etiquetado (label errors), o la inclusión de información que es intrínsecamente contradictoria o que constituye desinformación, comprometiendo así la fiabilidad y la coherencia del sistema resultante.

Fuente: MIT AI Risk Repositorymit1153

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1153

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Establecer un marco riguroso de gobernanza de datos y curación, definiendo protocolos estandarizados para la ingesta, limpieza y validación. Esto debe incluir la creación de un proceso sistemático y repetible para transformar los datos brutos en *inputs* de alta fidelidad, documentando cómo se recogen, curan y modifican, con el fin de optimizar la coherencia y minimizar el error humano. 2. Implementar mecanismos de verificación y validación de datos en tiempo real (p. ej., *checks* automatizados y auditorías continuas) para detectar inconsistencias, anomalías y errores sistemáticos de etiquetado (*label errors*) en las fases pre-entrenamiento. 3. Priorizar la adquisición y curación de conjuntos de datos diversos y representativos para mitigar sesgos inherentes y la inclusión de información contradictoria. Aplicar técnicas de *de-sesgo* algorítmico, como el remuestreo (*sampling*), el reetiquetado (*relabelling*), o la perturbación para asegurar la equidad en la representación de subgrupos.