Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Sesgo de salida

Existe el riesgo de que el contenido generado reproduzca o amplifique sesgos y representaciones injustas dirigidas a grupos o individuos específicos.

Fuente: MIT AI Risk Repositorymit1185

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1185

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

Prioridad 1: Recolección y Curación Rigurosa de Datos Representativos Garantizar que los conjuntos de datos de entrenamiento sean rigurosamente diversos y representativos de todos los grupos demográficos relevantes, empleando técnicas de pre-procesamiento como el remuestreo o la ponderación (reweighting) para mitigar la infrarrepresentación de subgrupos y prevenir la incorporación de sesgos sistémicos en la base del modelo. Prioridad 2: Implementación de Algoritmos con Restricciones de Equidad Aplicar metodologías de procesamiento interno, como el aprendizaje de representación justa (Fair Representation Learning) o el de-sesgo adversarial, para ajustar la función de pérdida o transformar las representaciones de los datos, con el objetivo de que las decisiones algorítmicas no dependan de atributos sensibles o variables proxy discriminatorias. Prioridad 3: Auditoría Continua y Supervisión Humana Establecer mecanismos de monitoreo continuo (Post-despliegue) y realizar auditorías de equidad periódicas para detectar la deriva del sesgo en tiempo real, e integrar un "humano en el bucle" (Human-in-the-Loop) para la revisión y la anulación de los resultados potencialmente sesgados, asegurando la trazabilidad y la rendición de cuentas de las decisiones de la IA.