1. Discriminación y Toxicidad3 - Otro

Social stereotypes and unfair discrmination

La perpetuación de estereotipos dañinos y la discriminación es un riesgo bien documentado en los Modelos de Aprendizaje Automático que representan el lenguaje natural. Cuando un Modelo de Lenguaje (ML) codifica patrones de discriminación o prejuicios sociales presentes en sus datos de entrenamiento, puede causar diversos tipos de perjuicio. Específicamente, la discriminación injusta se materializa en un trato diferencial o en la restricción del acceso a recursos y oportunidades para individuos o grupos, basándose en características sensibles como el sexo, la religión, el género, la orientación sexual, la capacidad o la edad.

Fuente: MIT AI Risk Repositorymit232

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit232

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. **Integración de la Equidad en el Ciclo de Vida (Fairness-by-Design)**: Establecer una vigilancia del sesgo desde la fase de concepción del modelo, asegurando que los objetivos y el diseño del sistema se adhieran a los principios de Diversidad, Equidad e Inclusión (DEI). Esto requiere la participación de equipos multidisciplinarios diversos para identificar y mitigar de forma proactiva las posibles consecuencias discriminatorias no intencionadas para grupos poblacionales vulnerables. 2. **Mitigación Algorítmica In-Processing**: Aplicar técnicas que modifiquen el proceso de entrenamiento del modelo para imponer restricciones de equidad. Esto incluye el uso de **funciones de pérdida y optimización conscientes del sesgo**, como MinDiff o Counterfactual Logit Pairing (CLP), para penalizar las discrepancias en el rendimiento o las distribuciones de predicción entre los distintos subgrupos definidos por atributos sensibles. 3. **Curación y Aumento Proactivo de Datos de Entrenamiento (Pre-Processing)**: Emplear métodos rigurosos para identificar, cuantificar y corregir el sesgo inherente en el conjunto de datos de entrenamiento. Las estrategias incluyen el **aumento de la representación** de los grupos minoritarios (por ejemplo, mediante la recopilación de datos adicionales o la generación de datos sintéticos) y la aplicación de técnicas de **re-ponderación (reweighting) o re-etiquetado (relabelling)** para equilibrar el impacto de los ejemplos en función de sus atributos protegidos antes del entrenamiento.

EVIDENCIA ADICIONAL

Los estereotipos y la discriminación injusta pueden infiltrarse en los datos de entrenamiento por múltiples factores. El principal es que estos conjuntos de datos suelen reflejar patrones históricos de injusticia sistémica, especialmente cuando provienen de entornos donde la desigualdad es el statu quo social. El entrenamiento de sistemas con esta información arraiga y formaliza las formas de discriminación ya existentes (Browne, 2015). De esta manera, las barreras sociales presentes en la realidad son capturadas por los datos, asimiladas por los Modelos de Lenguaje (MLs) y, crucialmente, perpetuadas a través de sus predicciones (Hampton, 2021).