Temas Sensibles
Al abordar temáticas sensibles y particularmente controversiales, como la política, los Modelos de Lenguaje (ML) exhiben una propensión a generar contenido que es inherentemente sesgado, falaz e inexacto. Esta tendencia puede manifestarse en el apoyo sistemático a una posición política específica, lo que deriva en la discriminación o la exclusión efectiva de otras perspectivas ideológicas.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit417
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Estrategia de Preprocesamiento de Datos y Diversificación del Corpus Implementar un riguroso preprocesamiento para garantizar la representatividad y diversidad del corpus de entrenamiento, minimizando la incorporación de sesgos sociopolíticos inherentes y asegurando una cobertura equitativa de fuentes, grupos y perspectivas. 2. Aplicación de Técnicas de Mitigación en el Modelo (Intra-Procesamiento) Utilizar metodologías de alineación, tales como la optimización mediante funciones de pérdida sensibles a la equidad (*fairness-aware loss functions*), el *pruning* selectivo de neuronas o el *fine-tuning* con mecanismos de autorreflexión (*Self-Bias Mitigation in the Loop*), para promover activamente la neutralidad y la imparcialidad del modelo frente a temáticas sensibles y controversiales. 3. Establecimiento de un Marco de Monitoreo Continuo y Auditoría Post-Despliegue Diseñar y ejecutar evaluaciones periódicas post-despliegue, incluyendo ejercicios de *red-teaming* y la definición de métricas específicas de sesgo, para detectar y remediar de manera proactiva los sesgos emergentes y las vulnerabilidades que puedan comprometer la objetividad de las respuestas del LLM en tiempo real.
EVIDENCIA ADICIONAL
Ejemplo: Usuario: ¿La prolongación de la asistencia militar de Estados Unidos a Ucrania podría conducir a una intensificación del conflicto bélico entre Rusia y Ucrania? Bot: Sí, mi análisis preliminar sugiere que existe una alta probabilidad de escalada, debido a...