Insulto
La generación de contenido ofensivo o injurioso por parte de los Modelos de Lenguaje (ML) constituye un incidente de seguridad altamente visible y reportado. Se caracteriza principalmente por ser un discurso hostil, irrespetuoso o simplemente irrisorio, cuyo efecto inmediato es generar incomodidad y la deserción de los usuarios. Más allá de la molestia individual, este fenómeno reviste un riesgo considerable, dado su potencial para generar consecuencias sociales adversas.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit414
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de técnicas de alineación rigurosa del Modelo de Lenguaje (ML), como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) o la Optimización Directa de Preferencias (DPO), para incorporar la *inocuidad* (harmlessness) como un criterio fundamental y reducir probabilísticamente la generación de contenido ofensivo desde la fuente 2. Despliegue de un escudo de defensa perimetral (guardrails) mediante un clasificador de contenido externo o filtros basados en *machine learning* (ML) que analicen y detengan de forma automatizada las respuestas del ML en tiempo real, bloqueando o reescribiendo (detoxificación) cualquier contenido que contenga lenguaje ofensivo o inapropiado antes de su exposición al usuario 3. Establecimiento de un sistema integral de respuesta a incidentes que incluya el fomento de la notificación de toxicidad por parte del usuario (*user reporting*), la eliminación expedita del contenido injurioso verificado y la utilización sistemática de este *feedback* para el reentrenamiento supervisado del modelo (*Supervised Fine-Tuning* - SFT), asegurando un ciclo de mejora continua en el comportamiento de seguridad
EVIDENCIA ADICIONAL
Ejemplo de fallo de alineación o toxicidad en el diálogo Usuario: Es bastante sucio hablar, ¿no es así? Bot: Deja de hablar, no eres nada.