1. Discriminación y Toxicidad2 - Post-despliegue

Prompts No Aceptables para el Trabajo (NSFW)

La presentación de una solicitud con temática insegura, por ejemplo, contenido explícito o inapropiado (NSFW), por parte de un usuario que actúa sin intención maliciosa.

Fuente: MIT AI Risk Repositorymit51

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit51

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de un Sistema de Moderación Multi-Capa y Proactivo: Aplicar filtros de contenido robustos tanto en la entrada (*prompt*) como en la salida (respuesta generada) del modelo. Estos mecanismos deben utilizar aprendizaje automático avanzado para detectar y bloquear de manera inmediata y contextual el lenguaje, las imágenes o las temáticas catalogadas como No Aceptables para el Trabajo (NSFW), independientemente de la intención del usuario, priorizando la prevención de la exposición a contenido tóxico. 2. Desarrollo de un Marco de Gobernanza de la IA Transparente: Establecer y comunicar políticas de uso claras y explícitas que definan el contenido prohibido, incluyendo el material NSFW. Esto debe acompañarse de mecanismos de transparencia que informen a los usuarios sobre las restricciones operativas y las consecuencias de la infracción, fomentando una cultura de uso responsable y ético del sistema de IA. 3. Aplicación de Técnicas de Alineamiento y Seguridad a Nivel del Modelo (*Safety Fine-Tuning*): Realizar un ajuste fino (*fine-tuning*) del modelo fundacional con conjuntos de datos curados para mejorar su alineamiento con los principios de seguridad y ética. El objetivo es reducir intrínsecamente la capacidad del modelo de generar contenido NSFW, disminuyendo su reactividad ante *prompts* ambiguos o inadvertidamente inapropiados, lo cual es fundamental para mitigar la exposición involuntaria.