4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Difusión de toxicidad

Existe el riesgo inherente de que los modelos de Inteligencia Artificial generativa sean explotados deliberadamente para la producción de contenido nocivo, incluyendo material de incitación al odio, abusivo o de naturaleza obscena y profana.

Fuente: MIT AI Risk Repositorymit1169

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1169

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. Aplicar técnicas de alineación del modelo, como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y la optimización regularizada por toxicidad, e incorporar mecanismos de filtrado dinámico en la curación de los conjuntos de datos para establecer salvaguardas estructurales que limiten la capacidad de generar contenido odioso, abusivo u obsceno desde la etapa de desarrollo. 2. Establecer una infraestructura de "red teaming" y llevar a cabo pruebas adversariales rigurosas para evaluar proactivamente la robustez del modelo frente a ataques de inyección de prompts y otras técnicas de elusión, asegurando que las barreras de seguridad no puedan ser sorteadas para generar resultados tóxicos. 3. Implementar capas de seguridad post-despliegue, incluyendo clasificadores de toxicidad en tiempo real y oleoductos de monitorización continua, junto con políticas de uso y prohibiciones rápidas de usuarios, para la detección inmediata y la mitigación activa de la difusión de contenido nocivo.