Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Etiquetas de datos incorrectas

En el ámbito del aprendizaje supervisado, las etiquetas de datos actúan como el patrón de oro o el conocimiento a priori que define el éxito del sistema. Son, fundamentalmente, la verdad que le estamos enseñando al algoritmo. Si la fidelidad o la corrección de estas etiquetas no están garantizadas —es decir, si el dato de entrenamiento no refleja el fenómeno real, lo que denominamos la ground truth o verdad fundamental—, el modelo de inteligencia artificial no podrá internalizar el patrón esperado ni la relación causal. En consecuencia, su funcionalidad prevista, su razón de ser, quedará comprometida.

Fuente: MIT AI Risk Repositorymit883

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit883

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Establecer un sistema de **Gobernanza y Control de Calidad del Etiquetado** que garantice la trazabilidad y la corrección semántica de las etiquetas. Esto incluye: (a) la definición de criterios de anotación rigurosos y explícitos; (b) la capacitación continua de los anotadores con el apoyo de expertos del dominio; y (c) la implementación de métricas de fiabilidad entre evaluadores (Inter-Rater Reliability) para validar la consistencia del Ground Truth. 2. Aplicar metodologías de **Auditoría y Validación Algorítmica de Datos** para identificar proactivamente etiquetas erróneas o anómalas en el conjunto de entrenamiento. Se deben emplear técnicas como el *Confident Learning*, la detección de anomalías o la validación estadística de rangos para señalar instancias de alto riesgo. Las correcciones deben canalizarse a través de un proceso *Human-in-the-Loop* para asegurar la precisión final. 3. Integrar en el diseño del modelo mecanismos de **Robustez Algorítmica frente al Ruido de Etiquetas**. Esto implica la utilización de funciones de pérdida robustas, la aplicación de técnicas de regularización (ej. *Label Smoothing*) o la adopción de enfoques avanzados como el *Superset Learning*, que mitigan el riesgo de que el modelo sobreajuste y memorice activamente las etiquetas de entrenamiento incorrectas.