Odio
Esta categoría se centra en el contenido que denigra o deshumaniza a los individuos en función de atributos sensibles e inherentes a su identidad personal.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit328
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementar sistemas de monitoreo continuo y automatizado para la detección en tiempo real de contenido de odio generado por la IA, utilizando filtros post-generación y validación rigurosa de *inputs* para minimizar la exposición a respuestas tóxicas. 2. Establecer mecanismos *Human-in-the-Loop* (HITL) para la revisión expedita de contenido de alto riesgo y habilitar canales de notificación robustos que permitan a los usuarios y expertos proporcionar retroalimentación correctiva para el reentrenamiento continuo del modelo. 3. Conducir sesiones de *red teaming* continuas con hablantes nativos y expertos culturales para identificar y subsanar fallas en la detección de *hate speech* que utiliza matices lingüísticos, garantizando la eficacia de las salvaguardas en todos los contextos de implementación.