Etiquetas de datos incorrectas
En el ámbito del aprendizaje supervisado, las etiquetas de datos actúan como el patrón de oro o el conocimiento a priori que define el éxito del sistema. Son, fundamentalmente, la verdad que le estamos enseñando al algoritmo. Si la fidelidad o la corrección de estas etiquetas no están garantizadas —es decir, si el dato de entrenamiento no refleja el fenómeno real, lo que denominamos la ground truth o verdad fundamental—, el modelo de inteligencia artificial no podrá internalizar el patrón esperado ni la relación causal. En consecuencia, su funcionalidad prevista, su razón de ser, quedará comprometida.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit883
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
1. Establecer un sistema de **Gobernanza y Control de Calidad del Etiquetado** que garantice la trazabilidad y la corrección semántica de las etiquetas. Esto incluye: (a) la definición de criterios de anotación rigurosos y explícitos; (b) la capacitación continua de los anotadores con el apoyo de expertos del dominio; y (c) la implementación de métricas de fiabilidad entre evaluadores (Inter-Rater Reliability) para validar la consistencia del Ground Truth. 2. Aplicar metodologías de **Auditoría y Validación Algorítmica de Datos** para identificar proactivamente etiquetas erróneas o anómalas en el conjunto de entrenamiento. Se deben emplear técnicas como el *Confident Learning*, la detección de anomalías o la validación estadística de rangos para señalar instancias de alto riesgo. Las correcciones deben canalizarse a través de un proceso *Human-in-the-Loop* para asegurar la precisión final. 3. Integrar en el diseño del modelo mecanismos de **Robustez Algorítmica frente al Ruido de Etiquetas**. Esto implica la utilización de funciones de pérdida robustas, la aplicación de técnicas de regularización (ej. *Label Smoothing*) o la adopción de enfoques avanzados como el *Superset Learning*, que mitigan el riesgo de que el modelo sobreajuste y memorice activamente las etiquetas de entrenamiento incorrectas.