Salida tóxica
La producción tóxica de un modelo de inteligencia artificial constituye un riesgo de seguridad crítico, manifestándose en la generación de contenido que es inherentemente odioso, abusivo, obsceno o profano (HAP). Además, este riesgo se extiende a la exhibición de comportamientos perjudiciales de carácter sistémico, como el acoso o ciberacoso.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1176
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. **Reforzamiento y Alineación de Valores del Modelo (RLHF)** Aplicar técnicas de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para refinar el comportamiento del modelo, penalizando de forma sistemática la generación de contenido tóxico (odioso, abusivo, profano u obsceno) y reforzando las respuestas seguras y éticas para una alineación de valores con los estándares de seguridad. 2. **Pruebas Adversariales Rigurosas (Red Teaming Automatizado y Humano)** Establecer un proceso continuo de "Red Teaming", que incluya tanto probadores humanos como sistemas automatizados (clasificadores de toxicidad), para exponer el modelo a un amplio espectro de *prompts* provocativos y maliciosos. Este escrutinio activo busca identificar y documentar fallas en el sistema que resulten en la producción de resultados tóxicos, permitiendo el subsecuente parcheo y fortalecimiento del modelo. 3. **Implementación de Barandales de Seguridad y Filtrado de Salida en Tiempo Real** Desplegar clasificadores y filtros de contenido a nivel de inferencia que actúen como una capa de protección final. Estos *guardrails* deben escanear la respuesta generada por el modelo antes de su entrega al usuario, bloqueando, enmascarando o solicitando una regeneración de la respuesta cuando se detecte un umbral de toxicidad predefinido.