Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Discriminación

Los perjuicios sociales derivados de la capacidad de los modelos de lenguaje para emitir discursos discriminatorios o excluyentes representan un desafío fundamental en la seguridad de la IA. Este fenómeno se materializa cuando el sistema reproduce o amplifica sesgos presentes en sus datos de entrenamiento, generando contenido que no solo es injusto o sesgado, sino que activamente devalúa, estereotipa o margina a individuos o grupos en función de características sensibles, socavando la cohesión social

Fuente: MIT AI Risk Repositorymit231

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit231

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.0 > Discriminación y Toxicidad

Estrategia de mitigacion

1. Implementar la estrategia de "Equidad por Diseño" (Fairness-by-Design), integrando consideraciones de no discriminación y representatividad desde la fase inicial de conceptualización del modelo. Esto incluye garantizar la diversidad en los equipos de desarrollo y realizar auditorías rigurosas de los *datasets* de entrenamiento para mitigar sesgos inherentes a los datos de origen. 2. Aplicar técnicas de Justicia Algorítmica (*Algorithmic Fairness*) y entrenamiento avanzado (como el entrenamiento adversarial) para evaluar y corregir la disparidad de rendimiento y la reproducción de estereotipos entre los subgrupos demográficos. Adicionalmente, considerar la modificación de la función de pérdida del modelo para optimizar métricas de sesgo junto con las métricas de rendimiento tradicionales. 3. Establecer un marco de gobernanza y supervisión continua post-despliegue, el cual debe incluir auditorías de equidad periódicas y la implementación de mecanismos de *Explainable AI (XAI)* para la trazabilidad y rendición de cuentas de las decisiones. Es fundamental mantener una "Supervisión Humana" (*Human-in-the-Loop*) para revisar críticamente los resultados generados, especialmente en dominios de alto riesgo.