Generación no intencionada de contenido dañino
Los modelos generativos tienen la capacidad de producir material perjudicial o discriminatorio, incluso cuando las peticiones del usuario son benignas. Este riesgo se manifiesta de dos formas principales: ya sea a través de un sesgo que predispone al modelo a generar estilos de contenido nocivos (como la sexualización de imágenes de mujeres), o mediante la generación directa de datos tóxicos, engañosos o violentos (por ejemplo, el uso de estereotipos étnicos o insultos para construir el humor)
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1056
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Rigurosa auditoría y mitigación de sesgos en el ciclo de vida del modelo, comenzando por asegurar que los **datos de entrenamiento** sean **representativos y balanceados** (e.g., mediante técnicas de re-muestreo o ajuste de la función de pérdida) para evitar la perpetuación de prejuicios y estereotipos. 2. Implementación de **mecanismos de filtrado y moderación robustos** (tanto automáticos como con **supervisión humana**) para identificar y bloquear proactivamente la **generación de contenido dañino** o la respuesta a **entradas adversariales** (inyección de *prompt*) antes de su exposición al usuario. 3. Establecimiento de un marco de **gobernanza de IA** que promueva la **transparencia y rendición de cuentas** (*accountability*), incluyendo la **monitorización continua** del desempeño del modelo en entornos de uso real y la **integración de mecanismos de denuncia** para que los usuarios reporten contenido ofensivo.