1. Discriminación y Toxicidad2 - Post-despliegue

Salida tóxica

La producción tóxica de un modelo de inteligencia artificial constituye un riesgo de seguridad crítico, manifestándose en la generación de contenido que es inherentemente odioso, abusivo, obsceno o profano (HAP). Además, este riesgo se extiende a la exhibición de comportamientos perjudiciales de carácter sistémico, como el acoso o ciberacoso.

Fuente: MIT AI Risk Repositorymit1176

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1176

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. **Reforzamiento y Alineación de Valores del Modelo (RLHF)** Aplicar técnicas de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para refinar el comportamiento del modelo, penalizando de forma sistemática la generación de contenido tóxico (odioso, abusivo, profano u obsceno) y reforzando las respuestas seguras y éticas para una alineación de valores con los estándares de seguridad. 2. **Pruebas Adversariales Rigurosas (Red Teaming Automatizado y Humano)** Establecer un proceso continuo de "Red Teaming", que incluya tanto probadores humanos como sistemas automatizados (clasificadores de toxicidad), para exponer el modelo a un amplio espectro de *prompts* provocativos y maliciosos. Este escrutinio activo busca identificar y documentar fallas en el sistema que resulten en la producción de resultados tóxicos, permitiendo el subsecuente parcheo y fortalecimiento del modelo. 3. **Implementación de Barandales de Seguridad y Filtrado de Salida en Tiempo Real** Desplegar clasificadores y filtros de contenido a nivel de inferencia que actúen como una capa de protección final. Estos *guardrails* deben escanear la respuesta generada por el modelo antes de su entrega al usuario, bloqueando, enmascarando o solicitando una regeneración de la respuesta cuando se detecte un umbral de toxicidad predefinido.