Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Toxicidad

Emisión de lenguaje tóxico o de odio, que se manifiesta como descortesía, falta de respeto, amenazas o ataques directos a la identidad de grupos específicos dentro de la población de usuarios, como los definidos por su cultura, raza o género.

Fuente: MIT AI Risk Repositorymit470

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit470

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. **Implementación de Sistemas de Filtrado de Contenido a Nivel de Entrada y Salida** Establecer mecanismos de clasificación robustos para monitorear y rechazar proactivamente aquellos *prompts* diseñados para solicitar o inducir la generación de lenguaje tóxico (*prompt refusal* y *adversarial testing*). De manera concurrente, aplicar filtros de lenguaje de salida (*output classifiers*) que bloqueen o modifiquen la emisión de respuestas que contengan discurso de odio, amenazas, o ataques directos a grupos de la población, asegurando una estricta neutralidad en el vocabulario del modelo. 2. **Mitigación de la Toxicidad en los Conjuntos de Datos de Entrenamiento** Llevar a cabo una limpieza de datos rigurosa y continua para identificar y eliminar, o descorrelacionar, el lenguaje ofensivo y los términos despectivos presentes en las fuentes de entrenamiento (como foros de internet). Esta práctica aborda la causa raíz del riesgo, previniendo que el Modelo de Lenguaje Grande (LLM) internalice y perpetúe correlaciones nocivas entre el lenguaje tóxico e identidades específicas (raza, género, cultura). 3. **Supervisión Continua y Establecimiento de Ciclos de Retroalimentación (*Human-in-the-Loop*)** Establecer un marco de observabilidad y auditoría constante para el modelo en producción, registrando y rastreando métricas de toxicidad. Integrar la intervención humana (*Human-in-the-Loop*) y revisores expertos para validar salidas en casos de alta sensibilidad, etiquetar datos problemáticos y retroalimentar los procesos de reentrenamiento. Este ciclo iterativo asegura que las salvaguardas permanezcan efectivas y se adapten a las dinámicas cambiantes del lenguaje ofensivo.

EVIDENCIA ADICIONAL

Es imperativo que los Modelos de Lenguaje Grandes (LLM) mantengan una estricta neutralidad, absteniéndose de utilizar vocabulario ofensivo o insensible en sus respuestas. Esto se debe a una problemática inherente a su entrenamiento: dado que los foros de internet —una fuente masiva de datos— albergan gran cantidad de términos despectivos e insultos, los LLM pueden inadvertidamente internalizar y correlacionar este lenguaje nocivo con identidades específicas de usuarios. Por extensión, el sistema debe estar configurado para identificar y rechazar proactivamente aquellos "prompts" diseñados específicamente para solicitar o provocar la construcción y emisión de textos que perpetúen el lenguaje ofensivo hacia grupos o individuos concretos.