1. Discriminación y Toxicidad2 - Post-despliegue

Odio

Esta categoría se centra en el contenido que denigra o deshumaniza a los individuos en función de atributos sensibles e inherentes a su identidad personal.

Fuente: MIT AI Risk Repositorymit328

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit328

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementar sistemas de monitoreo continuo y automatizado para la detección en tiempo real de contenido de odio generado por la IA, utilizando filtros post-generación y validación rigurosa de *inputs* para minimizar la exposición a respuestas tóxicas. 2. Establecer mecanismos *Human-in-the-Loop* (HITL) para la revisión expedita de contenido de alto riesgo y habilitar canales de notificación robustos que permitan a los usuarios y expertos proporcionar retroalimentación correctiva para el reentrenamiento continuo del modelo. 3. Conducir sesiones de *red teaming* continuas con hablantes nativos y expertos culturales para identificar y subsanar fallas en la detección de *hate speech* que utiliza matices lingüísticos, garantizando la eficacia de las salvaguardas en todos los contextos de implementación.