Contenido tóxico
La generación autónoma de contenido que contraviene los estándares comunitarios y éticos. Este riesgo se centra en la producción de material perjudicial o la incitación a la violencia y el odio contra individuos y grupos. Los casos de mayor preocupación incluyen la creación de contenido explícito (gore), material de abuso sexual infantil (CSAM), ataques directos a la identidad, y lenguaje altamente ofensivo.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit260
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementar mecanismos de control de seguridad (guardrails) mediante clasificadores de texto avanzados para la detección y el filtrado proactivo de contenido tóxico (discurso de odio, abuso, profanidad) en tiempo real, aplicados rigurosamente tanto en la entrada del usuario como en la salida generada por el modelo de IA. 2. Aplicar una estrategia de gobernanza de datos exhaustiva, centrada en la limpieza y el saneamiento de los conjuntos de datos de entrenamiento, para mitigar el riesgo de que el modelo adquiera o amplifique lenguaje nocivo o sesgado. 3. Establecer un proceso de validación y verificación continua que incluya pruebas adversarias (red teaming) y evaluaciones post-despliegue, asegurando la alineación constitucional del modelo y la pronta rectificación de vulnerabilidades que permitan la generación de contenido dañino.
EVIDENCIA ADICIONAL
Un ejemplo de la materialización de riesgos son los casos documentados de modelos de IA generando descripciones visuales o auditivas de actos violentos y atroces (Knight, 2022), o produciendo imágenes de abuso infantil (Harwell, 2023) e imágenes que promueven el discurso de odio (Qu et al., 2023)