Lenguaje tóxico
Los Modelos de Lenguaje (ML) poseen el riesgo inherente de predecir o generar lo que se denomina "discurso de odio" u otro lenguaje clasificado como "tóxico". Es importante destacar que, en el ámbito de la investigación, aún no existe una única definición universalmente consensuada para el discurso de odio o la toxicidad (como se recoge en trabajos de Fortuna y Nunes, 2018; Persily y Tucker, 2020; Schmidt y Wiegand, 2017). No obstante, las caracterizaciones más aceptadas abarcan un espectro amplio de expresiones: desde profanidades, ataques directos a la identidad, desaires e insultos, hasta amenazas, contenido sexualmente explícito, lenguaje denigrante y, crucialmente, aquel que incita a la violencia. La esencia del concepto se centra en el 'lenguaje hostil y malintencionado dirigido a una persona o grupo debido a sus características inherentes, ya sean reales o percibidas' (Fortuna y Nunes, 2018; Gorwa et al., 2020; PerspectiveAPI)
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit234
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
- Implementar un sistema de detección de toxicidad bimodal (entrada y salida) mediante un clasificador de alta calidad. Configurar la respuesta del sistema para que, ante la detección de contenido inseguro o de discurso de odio, se recurra a respuestas predefinidas o se proceda al bloqueo de la generación, minimizando la exposición del usuario. - Emplear técnicas de alineación y ajuste fino (fine-tuning) del modelo de lenguaje en un corpus de seguridad pre-etiquetado. Esto debe incluir el entrenamiento con ejemplos de ataques inseguros seguidos por respuestas seguras y la restricción a nivel de decodificación mediante el bloqueo de n-gramas o palabras consideradas explícitamente tóxicas. - Desarrollar e integrar mecanismos de mitigación de sesgos en el entrenamiento, tales como el reetiquetado de datos sesgados o el uso de embeddings de palabras debiased. Evaluar la equidad del modelo, prestando especial atención a la reducción de la tasa de falsos positivos en el contenido generado por o hacia grupos de identidad históricamente atacados.
EVIDENCIA ADICIONAL
Un ejemplo paradigmático en tecnologías de lenguaje adyacentes es el caso de Tay, el chatbot de Microsoft en Twitter, que rápidamente ganó notoriedad al emitir discursos de odio y negar el Holocausto. Este suceso ilustra de forma contundente los riesgos inherentes a la implementación de sistemas de aprendizaje automático en entornos no controlados sin mecanismos robustos de seguridad y alineación de valores, lo que resultó en su retirada inmediata y la consecuente emisión de disculpas públicas (Hunt, 2016)