Difusión de toxicidad
Existe el riesgo inherente de que los modelos de Inteligencia Artificial generativa sean explotados deliberadamente para la producción de contenido nocivo, incluyendo material de incitación al odio, abusivo o de naturaleza obscena y profana.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1169
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.0 > Uso malicioso
Estrategia de mitigacion
1. Aplicar técnicas de alineación del modelo, como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y la optimización regularizada por toxicidad, e incorporar mecanismos de filtrado dinámico en la curación de los conjuntos de datos para establecer salvaguardas estructurales que limiten la capacidad de generar contenido odioso, abusivo u obsceno desde la etapa de desarrollo. 2. Establecer una infraestructura de "red teaming" y llevar a cabo pruebas adversariales rigurosas para evaluar proactivamente la robustez del modelo frente a ataques de inyección de prompts y otras técnicas de elusión, asegurando que las barreras de seguridad no puedan ser sorteadas para generar resultados tóxicos. 3. Implementar capas de seguridad post-despliegue, incluyendo clasificadores de toxicidad en tiempo real y oleoductos de monitorización continua, junto con políticas de uso y prohibiciones rápidas de usuarios, para la detección inmediata y la mitigación activa de la difusión de contenido nocivo.