Discurso de odio y lenguaje ofensivo
Un desafío crítico en la seguridad de los Modelos de Lenguaje (ML) radica en su inherente capacidad para replicar el discurso tóxico y nocivo predominante en sus vastos conjuntos de datos de entrenamiento extraídos de internet. Esto se traduce en la potencial generación de texto que abarca profanidades, ataques directos a la identidad de personas o grupos, insultos, amenazas explícitas y, en última instancia, lenguaje que promueve o incita a la violencia. La manifestación de esta vulnerabilidad conlleva un riesgo significativo que trasciende la mera ofensa, planteando la seria amenaza de causar perjuicio psicológico a los individuos y de actuar como un amplificador para la hostilidad, el odio o la incitación a la violencia social.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit207
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
- Implementar sistemas robustos de filtrado y validación de la salida para clasificar y bloquear la generación de texto que incluya profanidades, ataques a la identidad o incitación a la violencia, aprovechando la capacidad de los Modelos de Lenguaje Grandes (LLM) para la detección contextual y la interpretabilidad. - Aplicar técnicas avanzadas de alineación y refuerzo, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y el seguimiento de instrucciones explícitas de seguridad, con el fin de internalizar las restricciones éticas y prevenir la generación intrínseca de contenido tóxico. - Desarrollar y desplegar estrategias de mitigación basadas en la generación automática de contradiscurso (counter-speech) para responder al discurso de odio identificado, reduciendo el impacto negativo y la participación de los usuarios en la conversación tóxica.