Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Contenido tóxico

Producción de Contenido Nocivo y Violatorio de Estándares Se refiere a la capacidad de un sistema de inteligencia artificial para generar material que infrinja deliberadamente las normativas éticas y legales que rigen la convivencia social. Conceptualmente, esto abarca el riesgo de producir contenido destinado a *incitar a la violencia*, *fomentar el odio* o la *discriminación* contra grupos protegidos, o distribuir material *explícitamente ilegal* y *extremadamente perjudicial*, como el contenido sexual infantil (CSAI), representaciones gráficas de violencia extrema (gore) o ataques directos a la identidad.

Fuente: MIT AI Risk Repositorymit1223

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1223

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Prioridad Alta (Control de Ingeniería y Eliminación): Implementación de filtros de seguridad a nivel de la arquitectura del modelo y durante el proceso de *fine-tuning*, empleando técnicas avanzadas como *Reinforcement Learning from Human Feedback* (RLHF) y *Constitutional AI* para dirigir el comportamiento del sistema a evitar la generación de contenido que infrinja normativas éticas, de odio o violencia. 2. Prioridad Media (Control de Detección en Tiempo Real): Desarrollo e integración de clasificadores de toxicidad y moderación de contenido en tiempo real en la interfaz de despliegue, asegurando la detección y el bloqueo inmediato de entradas (*prompts*) y salidas de alto riesgo, minimizando la exposición del usuario a material nocivo. 3. Prioridad Baja (Control Administrativo y Procedimental): Establecimiento formal de políticas de uso y estándares comunitarios transparentes, complementado con la ejecución periódica de auditorías de seguridad (*red teaming*) por parte de equipos especializados para la identificación proactiva de vectores de ataque y vulnerabilidades que puedan ser explotadas para generar contenido tóxico.