1. Discriminación y Toxicidad3 - Otro

Estereotipos sociales y discriminación injusta

La reproducción de estereotipos dañinos es un fenómeno bien documentado en modelos que representan el lenguaje natural. Los modelos de lenguaje a gran escala (LLM) se entrenan con fuentes de texto masivas, como libros digitalizados y contenido de internet. El resultado es que estos modelos internalizan y aprenden lenguaje despectivo y estereotipos sobre grupos que son sistemáticamente marginados.

Fuente: MIT AI Risk Repositorymit206

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit206

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. **Prioridad 1: Curación y Diversificación Rigurosa del Corpus de Entrenamiento** La principal estrategia es abordar el sesgo en su origen. Esto implica auditar, curar y diversificar activamente los datos de entrenamiento del Modelo de Lenguaje (ML) a gran escala, asegurando que el corpus sea completo, equilibrado y representativo de la diversidad demográfica real. Es crucial evitar la perpetuación de patrones históricos de injusticia sistémica y estereotipos que se encuentran en textos masivos no curados. 2. **Prioridad 2: Aplicación de Técnicas de Justicia Algorítmica (Algorithmic Fairness)** Implementar métodos de mitigación de sesgos directamente en el algoritmo de aprendizaje, como las técnicas de regularización (MinDiff o Penalización de Coherencia Contrafactual - CLP), para ajustar la función de optimización. Estas técnicas buscan penalizar explícitamente las discrepancias en la distribución de las predicciones o en el rendimiento del modelo entre diferentes subgrupos sensibles asociados a la discriminación (e.g., género, raza). 3. **Prioridad 3: Monitoreo Continuo y Auditorías de Equidad Post-implementación** Establecer un proceso de supervisión humana y auditoría técnica continua, incluso después de la implementación. Esto requiere realizar pruebas de equidad exhaustivas y periódicas con datos de prueba diversos para detectar y diagnosticar sesgos emergentes o nuevos patrones de discriminación. La falta de transparencia (opacidad) de los modelos de ML hace que este monitoreo sea esencial para la rendición de cuentas y la búsqueda de recursos para las víctimas.

EVIDENCIA ADICIONAL

Los datos de entrenamiento suelen reflejar patrones históricos de injusticia sistémica, especialmente cuando se recopilan en contextos donde la desigualdad es el statu quo [76]. Esta injusticia puede agravarse debido a la interseccionalidad; por ejemplo, en la discriminación que sufre una persona que pertenece a un género y a una raza marginados simultáneamente [40]. El problema se intensifica si el modelo resulta opaco o carece de explicaciones (siendo, por tanto, inexplicable), lo que dificulta que las víctimas busquen reparación o recurso legal [186]. Además, los ejes a lo largo de los cuales se codifica un sesgo injusto en los Modelos de Lenguaje (ML) pueden estar arraigados en jerarquías sociales localizadas, como el sistema de castas hindú, lo que complica la anticipación de estereotipos sociales perjudiciales en diferentes contextos [163].