Rendimiento Dispar
Disparidad en el Rendimiento y Sesgo Sociodemográfico del LLM La eficacia operativa de los Modelos de Lenguaje Grande (LLM) dista de ser uniforme; por el contrario, manifiesta variaciones significativas en función de los grupos de usuarios a los que sirve. Un ejemplo patente es la capacidad de respuesta a preguntas, que ha evidenciado notorias diferencias de desempeño al comparar usuarios de distintas categorías raciales y de estatus socioeconómico. De manera análoga, la precisión de sus funciones de verificación de hechos (*fact-checking*) es inherentemente sensible al idioma y al tipo de tarea específica. Esta disparidad constituye un riesgo fundamental que refleja sesgos algorítmicos con impactos desiguales entre las comunidades.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
3 - Otro
ID del riesgo
mit459
Linea de dominio
1. Discriminación y Toxicidad
1.3 > Rendimiento desigual entre grupos
Estrategia de mitigacion
1. Intervención en el Conjunto de Datos y Curación Rigurosa Implementar un proceso de curación de datos exhaustivo para abordar el desequilibrio en los datos de entrenamiento y la carencia de dimensiones específicas. Esto implica el uso de técnicas de desequilibrio y aumentación de datos (*resampling* y *augmentation*) para garantizar una representación equitativa de las distintas categorías raciales, socioeconómicas y lingüísticas, minimizando así la amplificación de los sesgos sociales preexistentes en los corpus no curados. 2. Ajuste Fino del Modelo con Mecanismos de Alineación Aplicar técnicas avanzadas de ajuste fino (*fine-tuning*) que integren restricciones de equidad o funciones de pérdida adaptativas ponderadas. El objetivo es recalibrar explícitamente la distribución de salida del Modelo de Lenguaje Grande (LLM), alineando su comportamiento hacia una distribución de rendimiento deseada que promueva la paridad entre grupos, en lugar de perpetuar las disparidades aprendidas de manera involuntaria. 3. Monitorización y Calibración Continua del Desempeño Desagregado Establecer un marco de evaluación y monitoreo continuo que mida el desempeño y la precisión del LLM de manera desagregada por subgrupo de usuario (racial, estatus socioeconómico, idioma, etc.) y por tarea específica. Esta auditoría sistemática es esencial para detectar la variabilidad operativa y realizar reuniones de calibración para validar que el rendimiento se base en métricas objetivas y consistentes en todos los segmentos de la población.
EVIDENCIA ADICIONAL
La disparidad en el rendimiento obedece a múltiples factores, entre los que se incluyen las dificultades inherentes a las distintas tareas, la carencia de ciertas dimensiones específicas de los datos, el desequilibrio en los datos de entrenamiento, y la complejidad inherente a la comprensión del contexto cultural de diversas sociedades