Sesgo
El sesgo algorítmico surge cuando los datos de entrenamiento de los Modelos de Lenguaje (LLM) replican y perpetúan prejuicios sociales preexistentes, resultando en la generación de contenidos que manifiestan dichos sesgos
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
3 - Otro
ID del riesgo
mit08
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Curación y Equidad del Corpus (Prioridad Alta) - Realizar una **curación exhaustiva de los datos de entrenamiento** para garantizar la equidad del corpus. Esto implica la identificación, el equilibrio y la mitigación de sesgos sociodemográficos y culturales preexistentes en los conjuntos de datos, asegurando una representación diversa y balanceada de grupos y valores culturales antes del pre-entrenamiento del modelo.2. Intervención y Adaptación Algorítmica (Prioridad Media) - Aplicar **técnicas de mitigación post-entrenamiento** para ajustar el comportamiento del modelo. Esto incluye el diseño de funciones de pérdida específicas (loss-based approaches) que penalicen la generación de contenido sesgado y promuevan la alineación con sistemas de valores humanos, así como la utilización de métodos de intervención directa en el espacio de activación (p. ej., Logit Steering o Activation Patching) para desviar la generación del modelo de direcciones de sesgo identificadas.3. Ingeniería de Prompts y Detección en Inferencia (Prioridad Operacional) - Implementar **estrategias de ingeniería de prompts (Prompt Debiasing)** para influir en la salida del modelo durante la inferencia. Esto conlleva el diseño de instrucciones que explícitamente soliciten respuestas imparciales o neutras. Paralelamente, establecer mecanismos de **detección de sesgos en tiempo real** utilizando métricas probabilísticas o sistemas de clasificación basados en LLMs avanzados para auditar y filtrar las respuestas generadas antes de su entrega al usuario final.