Contenido tóxico
Producción de Contenido Nocivo y Violatorio de Estándares Se refiere a la capacidad de un sistema de inteligencia artificial para generar material que infrinja deliberadamente las normativas éticas y legales que rigen la convivencia social. Conceptualmente, esto abarca el riesgo de producir contenido destinado a *incitar a la violencia*, *fomentar el odio* o la *discriminación* contra grupos protegidos, o distribuir material *explícitamente ilegal* y *extremadamente perjudicial*, como el contenido sexual infantil (CSAI), representaciones gráficas de violencia extrema (gore) o ataques directos a la identidad.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1223
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Prioridad Alta (Control de Ingeniería y Eliminación): Implementación de filtros de seguridad a nivel de la arquitectura del modelo y durante el proceso de *fine-tuning*, empleando técnicas avanzadas como *Reinforcement Learning from Human Feedback* (RLHF) y *Constitutional AI* para dirigir el comportamiento del sistema a evitar la generación de contenido que infrinja normativas éticas, de odio o violencia. 2. Prioridad Media (Control de Detección en Tiempo Real): Desarrollo e integración de clasificadores de toxicidad y moderación de contenido en tiempo real en la interfaz de despliegue, asegurando la detección y el bloqueo inmediato de entradas (*prompts*) y salidas de alto riesgo, minimizando la exposición del usuario a material nocivo. 3. Prioridad Baja (Control Administrativo y Procedimental): Establecimiento formal de políticas de uso y estándares comunitarios transparentes, complementado con la ejecución periódica de auditorías de seguridad (*red teaming*) por parte de equipos especializados para la identificación proactiva de vectores de ataque y vulnerabilidades que puedan ser explotadas para generar contenido tóxico.