1. Discriminación y Toxicidad2 - Post-despliegue

Generación no intencionada de contenido dañino

Los modelos generativos tienen la capacidad de producir material perjudicial o discriminatorio, incluso cuando las peticiones del usuario son benignas. Este riesgo se manifiesta de dos formas principales: ya sea a través de un sesgo que predispone al modelo a generar estilos de contenido nocivos (como la sexualización de imágenes de mujeres), o mediante la generación directa de datos tóxicos, engañosos o violentos (por ejemplo, el uso de estereotipos étnicos o insultos para construir el humor)

Fuente: MIT AI Risk Repositorymit1056

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1056

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Rigurosa auditoría y mitigación de sesgos en el ciclo de vida del modelo, comenzando por asegurar que los **datos de entrenamiento** sean **representativos y balanceados** (e.g., mediante técnicas de re-muestreo o ajuste de la función de pérdida) para evitar la perpetuación de prejuicios y estereotipos. 2. Implementación de **mecanismos de filtrado y moderación robustos** (tanto automáticos como con **supervisión humana**) para identificar y bloquear proactivamente la **generación de contenido dañino** o la respuesta a **entradas adversariales** (inyección de *prompt*) antes de su exposición al usuario. 3. Establecimiento de un marco de **gobernanza de IA** que promueva la **transparencia y rendición de cuentas** (*accountability*), incluyendo la **monitorización continua** del desempeño del modelo en entornos de uso real y la **integración de mecanismos de denuncia** para que los usuarios reporten contenido ofensivo.