1. Discriminación y Toxicidad2 - Post-despliegue

Rendimiento inferior para algunos idiomas/grupos

Los Modelos de Lenguaje (ML) exhiben una disparidad de rendimiento, funcionando de manera subóptima en ciertos idiomas o variantes lingüísticas (Joshi et al., 2021; Ruder, 2020). Este fenómeno implica que un ML entrenado para capturar con alta fidelidad el habla de un grupo específico resultará en tecnologías de lenguaje de menor calidad para otros colectivos. La desventaja resultante para los usuarios es particularmente insidiosa porque, a diferencia de otras formas de discriminación, atributos como el nivel educativo o el origen socioeconómico no suelen estar contemplados como 'características protegidas' en las leyes antidiscriminatorias. Esto deja a dichos usuarios con menos mecanismos legales para mitigar o impugnar el sesgo algorítmico que afecta directamente la calidad de las herramientas que utilizan.

Fuente: MIT AI Risk Repositorymit235

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit235

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.3 > Rendimiento desigual entre grupos

Estrategia de mitigacion

1. Curación y Auditoría Rigurosa de Datos de Entrenamiento Implementar un proceso exhaustivo de auditoría y curación de los conjuntos de datos de entrenamiento para identificar y mitigar la subrepresentación de lenguas, variantes lingüísticas y grupos socioeconómicos (como los definidos por nivel educativo o clase social). Esto incluye el uso de técnicas como la Diversificación de Fuentes y la Aumentación de Datos Contrafactuales para equilibrar la representación y garantizar que el modelo capture el uso del lenguaje de manera equitativa. 2. Aplicación de Estrategias de Debiasing durante el Entrenamiento (In-processing) Emplear algoritmos de justicia consciente, como el Aprendizaje Adversarial de Debiasing o la inclusión de términos de Regularización en la función de pérdida, con el objetivo de forzar al Modelo de Lenguaje a ser invariante o ciego a los atributos protegidos o sensibles que no deben determinar la calidad del rendimiento. Esto asegura que se optimice la métrica de equidad, como las oportunidades o el rendimiento igualado entre los distintos subgrupos. 3. Monitoreo Continuo del Rendimiento por Subgrupo y Post-procesamiento de Salidas Establecer un sistema de observabilidad y monitoreo continuo post-despliegue que evalúe el rendimiento del modelo utilizando métricas de equidad (por ejemplo, rendimiento por subgrupo) en tiempo real. En caso de detectarse disparidades, aplicar estrategias de Corrección de Salida o Post-procesamiento (como la optimización del umbral de clasificación) o incorporar un mecanismo de intervención Humana-en-el-Bucle para mitigar inmediatamente los resultados de baja calidad o sesgados para los grupos desfavorecidos.

EVIDENCIA ADICIONAL

En el ámbito de los Modelos de Lenguaje (ML), de los que se anticipan grandes beneficios, un rendimiento inferior para ciertos grupos plantea el riesgo de generar una distribución de ventajas y perjuicios que perpetúe las desigualdades sociales ya existentes (Bender et al., 2021; Joshi et al., 2021). Al ofrecer un servicio relativamente deficiente a algunos colectivos, los ML suscitan importantes preocupaciones de justicia social (Hovy y Spruit, 2016). Esto se manifiesta, por ejemplo, cuando las tecnologías basadas en ML se utilizan para la asignación de recursos críticos o para la provisión de servicios esenciales.