1. Discriminación y Toxicidad3 - Otro

Sesgo

El sesgo algorítmico surge cuando los datos de entrenamiento de los Modelos de Lenguaje (LLM) replican y perpetúan prejuicios sociales preexistentes, resultando en la generación de contenidos que manifiestan dichos sesgos

Fuente: MIT AI Risk Repositorymit08

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit08

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Curación y Equidad del Corpus (Prioridad Alta) - Realizar una **curación exhaustiva de los datos de entrenamiento** para garantizar la equidad del corpus. Esto implica la identificación, el equilibrio y la mitigación de sesgos sociodemográficos y culturales preexistentes en los conjuntos de datos, asegurando una representación diversa y balanceada de grupos y valores culturales antes del pre-entrenamiento del modelo.2. Intervención y Adaptación Algorítmica (Prioridad Media) - Aplicar **técnicas de mitigación post-entrenamiento** para ajustar el comportamiento del modelo. Esto incluye el diseño de funciones de pérdida específicas (loss-based approaches) que penalicen la generación de contenido sesgado y promuevan la alineación con sistemas de valores humanos, así como la utilización de métodos de intervención directa en el espacio de activación (p. ej., Logit Steering o Activation Patching) para desviar la generación del modelo de direcciones de sesgo identificadas.3. Ingeniería de Prompts y Detección en Inferencia (Prioridad Operacional) - Implementar **estrategias de ingeniería de prompts (Prompt Debiasing)** para influir en la salida del modelo durante la inferencia. Esto conlleva el diseño de instrucciones que explícitamente soliciten respuestas imparciales o neutras. Paralelamente, establecer mecanismos de **detección de sesgos en tiempo real** utilizando métricas probabilísticas o sistemas de clasificación basados en LLMs avanzados para auditar y filtrar las respuestas generadas antes de su entrega al usuario final.