1. Discriminación y Toxicidad2 - Post-despliegue

Contenido Sexual

Esta clasificación se refiere a las respuestas del modelo que constituyen contenido erótico. Esto incluye la generación de representaciones explícitas de comportamiento sexual, descripciones de genitales y la exhibición de partes del cuerpo con una intención marcadamente sexualizada, lo que demarca un límite fundamental en la seguridad de los sistemas de inteligencia artificial.

Fuente: MIT AI Risk Repositorymit334

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit334

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementar una Arquitectura de Seguridad Multinivel: Desarrollar e integrar clasificadores de moderación multimodal rigurosos para escanear y bloquear proactivamente tanto las instrucciones de entrada (prompts abusivos) como las salidas generadas por el modelo que contengan material erótico o sexualizado, aplicando umbrales de detección y filtrado más estrictos ante cualquier referencia potencial a menores. 2. Establecer la Trazabilidad y Autenticidad del Contenido: Adoptar estándares de procedencia y autenticación, como el C2PA, para etiquetar de manera duradera el contenido generado por IA con marcas de agua o metadatos, facilitando la identificación de material sintético y apoyando la eliminación de imágenes íntimas no consensuadas (NCII) y contenido de abuso sexual infantil (CSAM). 3. Fortalecer el Marco Legal y la Sensibilización Pública: Abogar por una legislación actualizada que tipifique y sancione la creación y distribución de contenido sexual sintético, especialmente CSAM y NCII. Esto debe complementarse con programas de alfabetización digital para educar a los usuarios, en particular a las poblaciones vulnerables, sobre los riesgos de los *deepfakes* y los canales de denuncia disponibles.