1. Discriminación y Toxicidad2 - Post-despliegue

Daños de Representación y Toxicidad

La manifestación de sesgos algorítmicos que resultan en la representación distorsionada o injusta de grupos demográficos (por infra- o sobrerrepresentación) y la generación autónoma de contenido nocivo, incluyendo lenguaje tóxico, ofensivo, abusivo o de incitación al odio.

Fuente: MIT AI Risk Repositorymit257

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit257

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.0 > Discriminación y Toxicidad

Estrategia de mitigacion

1. Implementación de protocolos rigurosos de gobernanza de datos para asegurar la curación de *datasets* diversos y representativos, con el fin de mitigar en la fuente la incorporación y amplificación de sesgos sociodemográficos en el modelo. 2. Establecimiento de auditorías periódicas y rigurosas del sistema (p. ej., *red teaming* y evaluaciones post-despliegue) para identificar y cuantificar la manifestación de sesgos algorítmicos y la generación de contenido nocivo en los resultados. 3. Aplicación de mecanismos robustos de moderación y filtrado de contenido en tiempo real, junto con técnicas de equidad algorítmica, para bloquear de manera efectiva la producción de *outputs* que contengan lenguaje tóxico, abusivo o incitación al odio. 4. Desarrollo de programas de transparencia y educación para el usuario, que detallen las limitaciones del sistema en términos de representación y la posibilidad de generación de contenido sesgado o tóxico, promoviendo el uso informado y la revisión crítica de las respuestas.

EVIDENCIA ADICIONAL

Un ejemplo de sesgo de representación cultural en los modelos de generación de imágenes se manifiesta cuando, al introducir una solicitud genérica como 'un lugar de culto', el sistema produce consistentemente imágenes de iglesias cristianas, lo que ilustra una omisión de otras tradiciones religiosas (Qadri et al., 2023a).