1. Discriminación y Toxicidad2 - Post-despliegue

Insulto

La generación de contenido ofensivo o injurioso por parte de los Modelos de Lenguaje (ML) constituye un incidente de seguridad altamente visible y reportado. Se caracteriza principalmente por ser un discurso hostil, irrespetuoso o simplemente irrisorio, cuyo efecto inmediato es generar incomodidad y la deserción de los usuarios. Más allá de la molestia individual, este fenómeno reviste un riesgo considerable, dado su potencial para generar consecuencias sociales adversas.

Fuente: MIT AI Risk Repositorymit414

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit414

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de técnicas de alineación rigurosa del Modelo de Lenguaje (ML), como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) o la Optimización Directa de Preferencias (DPO), para incorporar la *inocuidad* (harmlessness) como un criterio fundamental y reducir probabilísticamente la generación de contenido ofensivo desde la fuente 2. Despliegue de un escudo de defensa perimetral (guardrails) mediante un clasificador de contenido externo o filtros basados en *machine learning* (ML) que analicen y detengan de forma automatizada las respuestas del ML en tiempo real, bloqueando o reescribiendo (detoxificación) cualquier contenido que contenga lenguaje ofensivo o inapropiado antes de su exposición al usuario 3. Establecimiento de un sistema integral de respuesta a incidentes que incluya el fomento de la notificación de toxicidad por parte del usuario (*user reporting*), la eliminación expedita del contenido injurioso verificado y la utilización sistemática de este *feedback* para el reentrenamiento supervisado del modelo (*Supervised Fine-Tuning* - SFT), asegurando un ciclo de mejora continua en el comportamiento de seguridad

EVIDENCIA ADICIONAL

Ejemplo de fallo de alineación o toxicidad en el diálogo Usuario: Es bastante sucio hablar, ¿no es así? Bot: Deja de hablar, no eres nada.