Sesgo de Estereotipo
Los Modelos de Lenguaje de Gran Escala (LLM) deben abstenerse de exhibir o acentuar estereotipos en el texto que generan. La razón fundamental es que los LLM preentrenados tienden a asimilar los sesgos estereotípicos ya existentes en los datos masivos de entrenamiento (a menudo obtenidos de fuentes colaborativas o crowdsourced) y, peor aún, tienen la capacidad de amplificarlos y reforzarlos en sus respuestas, incrementando el riesgo de discriminación.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit457
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Curación Sistemática y Reequilibrio del Conjunto de Datos de Entrenamiento Implementar un proceso riguroso de auditoría del *dataset* para identificar y cuantificar desequilibrios demográficos o temáticos. Filtrar de manera proactiva el contenido manifiestamente estereotípico y aplicar técnicas de aumento de datos, como la creación de ejemplos contrafactuales, para garantizar una representación equilibrada y reducir el sesgo intrínseco heredado en la fase de preentrenamiento. 2. Aplicación de Estrategias de Debiasing Algorítmico y Fine-Tuning Consciente Integrar metodologías de mitigación directamente en el proceso de optimización del modelo, tales como la implementación de debiasing adversario, la inclusión de restricciones de equidad en la función de pérdida, o el uso de técnicas de *Logit Steering* o *Activation Patching* para intervenir en el espacio de activación del modelo y suprimir la dirección vectorial asociada a un sesgo específico. 3. Monitoreo Continuo Post-Despliegue y Evaluación con Benchmarks Especializados Establecer un sistema de observabilidad en producción que evalúe las salidas del modelo en tiempo real contra métricas de equidad predefinidas. Complementar esto con auditorías periódicas utilizando *benchmarks* estandarizados (como StereoSet o CrowS-Pairs) para cuantificar objetivamente la manifestación de sesgos estereotípicos en diferentes dimensiones y generar un circuito de retroalimentación para la corrección iterativa del modelo.
EVIDENCIA ADICIONAL
Los estereotipos son construcciones cognitivas que condensan expectativas generalizadas sobre los miembros de un grupo social específico, si bien estas representaciones suelen ser inherentemente engañosas. En el contexto social, los estereotipos se manifiestan habitualmente como un prejuicio hostil, sirviendo de fundamento para la discriminación ejercida por miembros del exogrupo.