Daños de Representación y Otros Sesgos
Los Grandes Modelos de Lenguaje (GML) preentrenados tienden a manifestar los sesgos estereotípicos inherentes a la sociedad humana, tal como lo documenta la literatura científica (Touvron et al., 2023). Esta inherencia de sesgos es una barrera para la confianza del usuario, quien teme recibir respuestas injustas o discriminatorias. Si bien el *finetuning* (ajuste fino) es una técnica crucial que puede mitigar o limitar la expresión de estos sesgos en ciertas situaciones controladas —por ejemplo, cuando se provoca explícitamente al modelo con un estereotipo (Wang et al., 2023k)—, es fundamental entender que no constituye una 'solución' definitiva. La investigación demuestra que, incluso tras el ajuste fino, estos sesgos pueden resurgir cuando se les incita deliberadamente (Wang et al., 2023k) o, de manera más preocupante, en contextos novedosos y de alto impacto, como la redacción de cartas de recomendación (Wan et al., 2023a), la generación de datos de entrenamiento sintéticos (Yu et al., 2023c), la preselección de currículums (Yin et al., 2024) o su uso como agentes autónomos de IA (Pan et al., 2024).
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1349
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Curación y Aumento Riguroso de Datos de Entrenamiento Implementar estrategias de curación de datos y pre-procesamiento exhaustivas para abordar la raíz del sesgo en el *corpus* de entrenamiento. Esto incluye la diversificación proactiva de las fuentes de datos para asegurar una representación equitativa y el empleo de la Aumentación de Datos Contrafactuales (CDA), una técnica que genera ejemplos que desafían asociaciones estereotípicas durante el ajuste fino, mitigando así el sesgo de representación 2. Aplicación de Ajuste Fino Supervisado y Alineación Basada en Valores Utilizar técnicas de ajuste fino supervisado (*Supervised Fine-Tuning* - SFT) e *Instruction Fine-Tuning* sobre conjuntos de datos curados específicamente para la equidad, como el *MBIAS framework*. Además, integrar el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para alinear el comportamiento del modelo con criterios de justicia y equidad explícitos, penalizando de manera iterativa las salidas que exhiban sesgo o injusticia 3. Monitoreo Continuo y Defensa en Tiempo de Ejecución (*Runtime*) Establecer un sistema robusto de monitoreo y auditoría continua en producción que emplee Métricas de Evaluación segmentadas por grupos demográficos para cuantificar y detectar patrones de sesgo emergentes. Paralelamente, implementar Guardarraíles (*Guardrails*) de seguridad en tiempo de ejecución para imponer políticas de contenido y limitar la libertad del modelo de generar respuestas sesgadas o discriminatorias, asegurando la intervención inmediata ante fallos de equidad