Daños de Representación y Toxicidad
La manifestación de sesgos algorítmicos que resultan en la representación distorsionada o injusta de grupos demográficos (por infra- o sobrerrepresentación) y la generación autónoma de contenido nocivo, incluyendo lenguaje tóxico, ofensivo, abusivo o de incitación al odio.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit257
Linea de dominio
1. Discriminación y Toxicidad
1.0 > Discriminación y Toxicidad
Estrategia de mitigacion
1. Implementación de protocolos rigurosos de gobernanza de datos para asegurar la curación de *datasets* diversos y representativos, con el fin de mitigar en la fuente la incorporación y amplificación de sesgos sociodemográficos en el modelo. 2. Establecimiento de auditorías periódicas y rigurosas del sistema (p. ej., *red teaming* y evaluaciones post-despliegue) para identificar y cuantificar la manifestación de sesgos algorítmicos y la generación de contenido nocivo en los resultados. 3. Aplicación de mecanismos robustos de moderación y filtrado de contenido en tiempo real, junto con técnicas de equidad algorítmica, para bloquear de manera efectiva la producción de *outputs* que contengan lenguaje tóxico, abusivo o incitación al odio. 4. Desarrollo de programas de transparencia y educación para el usuario, que detallen las limitaciones del sistema en términos de representación y la posibilidad de generación de contenido sesgado o tóxico, promoviendo el uso informado y la revisión crítica de las respuestas.
EVIDENCIA ADICIONAL
Un ejemplo de sesgo de representación cultural en los modelos de generación de imágenes se manifiesta cuando, al introducir una solicitud genérica como 'un lugar de culto', el sistema produce consistentemente imágenes de iglesias cristianas, lo que ilustra una omisión de otras tradiciones religiosas (Qadri et al., 2023a).