Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Contenido Peligroso, Violento o de Odio

La acelerada producción y diseminación de contenido de alto riesgo, incluyendo material violento, incitador, radicalizador o abiertamente amenazante. Esta facilidad se extiende a la generación de instrucciones o recomendaciones que promueven la autolesión o la planificación de actividades ilícitas. Un desafío crítico asociado es la dificultad para controlar la exposición del público a contenidos denigrantes, que incitan al odio o que refuerzan estereotipos sociales perjudiciales.

Fuente: MIT AI Risk Repositorymit711

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit711

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Establecer e implementar un marco de gobernanza de la IA que incluya una Política de Usos Prohibidos, definiendo límites explícitos para la generación de contenido (violencia, autolesión, incitación al odio y actividades ilícitas) y exigiendo la integración de salvaguardas técnicas robustas y filtros de seguridad para prevenir la elusión de dichas políticas. 2. Implementar sistemas de supervisión y métricas continuas (incluyendo auditorías y evaluaciones de riesgos estructuradas) para monitorear proactivamente la producción, diseminación y exposición pública a contenido tóxico, denigrante o que refuerce estereotipos, asegurando la trazabilidad del contenido y un mecanismo de respuesta rápida a incidentes de seguridad. 3. Articular programas de prevención de riesgo (enfoques primario, secundario y terciario) que, además de los controles tecnológicos, se centren en aumentar la resiliencia comunitaria contra la polarización y la radicalización, y facilitar el acceso a apoyo psicosocial y canales de derivación seguros para personas expuestas a contenido gráfico o en riesgo de autolesión.