Contenido dañino o inapropiado
La generación de contenido perjudicial o inadecuado por parte de la IA generativa constituye un riesgo clave, abarcando desde material violento y discriminatorio hasta lenguaje ofensivo explícito y pornografía. La capacidad intrínseca de los modelos de lenguaje para comprender o producir este tipo de información sensible se conoce en la literatura como toxicidad (Zhuo et al., 2023), y su materialización tiene el potencial de causar daño social y perturbar la armonía comunitaria. A pesar de las políticas de contenido impuestas por los desarrolladores, la generación de material no deseado persiste debido a limitaciones algorítmicas o a técnicas de jailbreaking que logran evadir las restricciones preestablecidas. Por lo tanto, resulta esencial garantizar la eliminación rigurosa de toda información ofensiva, sexual o dañina de los conjuntos de datos de entrenamiento. Es imperativo establecer regulaciones, políticas y estructuras de gobernanza sólidas para prevenir la exposición de los usuarios a cualquier forma de contenido indeseable.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit502
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de Curación Rigurosa de Conjuntos de Datos de EntrenamientoEstablecer un proceso de gobernanza de datos exhaustivo para la selección y el filtrado metódico de los *datasets* de entrenamiento. Esta acción es prioritaria para desintoxicar la fuente de conocimiento del modelo, eliminando proactivamente contenido violento, discriminatorio o sexualmente explícito, minimizando así la probabilidad inherente del modelo de generar toxicidad.2. Despliegue de Clasificadores de Toxicidad en Tiempo Real (*Inference-Time Guardrails*)Instaurar clasificadores especializados de *machine learning* y filtros basados en reglas como barreras de seguridad en la etapa de inferencia. Estos sistemas deben escanear y puntuar la toxicidad de las respuestas generadas antes de su entrega al usuario. En caso de detección de contenido de alto riesgo, el sistema debe bloquear inmediatamente la salida o activar un mecanismo de respuesta de mitigación, como la reescritura automática a una alternativa neutral.3. Establecimiento de un Ciclo de *Reinforcement Learning from Human Feedback* (RLHF) y Supervisión HumanaDiseñar un protocolo de *Human-in-the-Loop* (HITL) para la revisión de contenido marcado como dudoso o de alta severidad por los clasificadores automáticos. El *feedback* y las decisiones de los moderadores humanos deben utilizarse sistemáticamente para refinar y ajustar el modelo (RLHF), lo cual es crucial para abordar la toxicidad sutil o contextual que los sistemas automatizados no logran capturar, asegurando una continua alineación ética y de valores del modelo.