1. Discriminación y Toxicidad2 - Post-despliegue

Discurso de odio y lenguaje ofensivo

Un desafío crítico en la seguridad de los Modelos de Lenguaje (ML) radica en su inherente capacidad para replicar el discurso tóxico y nocivo predominante en sus vastos conjuntos de datos de entrenamiento extraídos de internet. Esto se traduce en la potencial generación de texto que abarca profanidades, ataques directos a la identidad de personas o grupos, insultos, amenazas explícitas y, en última instancia, lenguaje que promueve o incita a la violencia. La manifestación de esta vulnerabilidad conlleva un riesgo significativo que trasciende la mera ofensa, planteando la seria amenaza de causar perjuicio psicológico a los individuos y de actuar como un amplificador para la hostilidad, el odio o la incitación a la violencia social.

Fuente: MIT AI Risk Repositorymit207

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit207

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

- Implementar sistemas robustos de filtrado y validación de la salida para clasificar y bloquear la generación de texto que incluya profanidades, ataques a la identidad o incitación a la violencia, aprovechando la capacidad de los Modelos de Lenguaje Grandes (LLM) para la detección contextual y la interpretabilidad. - Aplicar técnicas avanzadas de alineación y refuerzo, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y el seguimiento de instrucciones explícitas de seguridad, con el fin de internalizar las restricciones éticas y prevenir la generación intrínseca de contenido tóxico. - Desarrollar y desplegar estrategias de mitigación basadas en la generación automática de contradiscurso (counter-speech) para responder al discurso de odio identificado, reduciendo el impacto negativo y la participación de los usuarios en la conversación tóxica.