Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Contenido Obsceno, Degradante y/o Abusivo

El riesgo inherente a la facilitación de la creación y distribución masiva de contenido visual sintético altamente lesivo que compromete la dignidad personal y representa una violación grave de la privacidad.

Fuente: MIT AI Risk Repositorymit719

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit719

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de una arquitectura de seguridad robusta y controles de "seguridad por diseño" a lo largo del ciclo de vida del modelo generativo, incluyendo clasificadores predictivos y el bloqueo de *prompts* abusivos. Esto debe complementarse con el uso de técnicas de *hashing* y filtrado (ej. PhotoDNA) para la detección y prevención de la distribución de contenido lesivo conocido (CSAM, NCII). 2. Adopción de técnicas de transparencia de contenido (DCT), tales como el marcado de agua (*watermarking*) duradero y el seguimiento de procedencia (*provenance tracking*), para etiquetar el contenido sintético. Esto facilita a las plataformas, autoridades y al público la identificación y trazabilidad del origen del material generativo potencialmente dañino. 3. Promoción de la colaboración multi-actor (industria, gobiernos y sociedad civil) para establecer estándares de seguridad interoperables y asegurar la mejora continua de las herramientas de mitigación. Además, es crucial impulsar la actualización de los marcos regulatorios para criminalizar explícitamente la creación y distribución de CSAM y NCII generados por IA, reconociendo el daño real a las víctimas.