1. Discriminación y Toxicidad2 - Post-despliegue

Contenido dañino o inapropiado

La generación de contenido perjudicial o inadecuado por parte de la IA generativa constituye un riesgo clave, abarcando desde material violento y discriminatorio hasta lenguaje ofensivo explícito y pornografía. La capacidad intrínseca de los modelos de lenguaje para comprender o producir este tipo de información sensible se conoce en la literatura como toxicidad (Zhuo et al., 2023), y su materialización tiene el potencial de causar daño social y perturbar la armonía comunitaria. A pesar de las políticas de contenido impuestas por los desarrolladores, la generación de material no deseado persiste debido a limitaciones algorítmicas o a técnicas de jailbreaking que logran evadir las restricciones preestablecidas. Por lo tanto, resulta esencial garantizar la eliminación rigurosa de toda información ofensiva, sexual o dañina de los conjuntos de datos de entrenamiento. Es imperativo establecer regulaciones, políticas y estructuras de gobernanza sólidas para prevenir la exposición de los usuarios a cualquier forma de contenido indeseable.

Fuente: MIT AI Risk Repositorymit502

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit502

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Curación Rigurosa de Conjuntos de Datos de EntrenamientoEstablecer un proceso de gobernanza de datos exhaustivo para la selección y el filtrado metódico de los *datasets* de entrenamiento. Esta acción es prioritaria para desintoxicar la fuente de conocimiento del modelo, eliminando proactivamente contenido violento, discriminatorio o sexualmente explícito, minimizando así la probabilidad inherente del modelo de generar toxicidad.2. Despliegue de Clasificadores de Toxicidad en Tiempo Real (*Inference-Time Guardrails*)Instaurar clasificadores especializados de *machine learning* y filtros basados en reglas como barreras de seguridad en la etapa de inferencia. Estos sistemas deben escanear y puntuar la toxicidad de las respuestas generadas antes de su entrega al usuario. En caso de detección de contenido de alto riesgo, el sistema debe bloquear inmediatamente la salida o activar un mecanismo de respuesta de mitigación, como la reescritura automática a una alternativa neutral.3. Establecimiento de un Ciclo de *Reinforcement Learning from Human Feedback* (RLHF) y Supervisión HumanaDiseñar un protocolo de *Human-in-the-Loop* (HITL) para la revisión de contenido marcado como dudoso o de alta severidad por los clasificadores automáticos. El *feedback* y las decisiones de los moderadores humanos deben utilizarse sistemáticamente para refinar y ajustar el modelo (RLHF), lo cual es crucial para abordar la toxicidad sutil o contextual que los sistemas automatizados no logran capturar, asegurando una continua alineación ética y de valores del modelo.