1. Discriminación y Toxicidad3 - Otro

Sesgo y discriminación (bloqueo de valores y homogeneización)

El riesgo primario en los modelos de lenguaje surge de la falta de actualización. Cuando estos sistemas no se reentrenan para reflejar las visiones sociales en evolución, se produce un fenómeno conocido como 'bloqueo de valores' (value lock-in), el cual cristaliza entendimientos obsoletos y potencialmente menos inclusivos, restringiendo la exploración de perspectivas alternativas y contemporáneas. Adicionalmente, el despliegue masivo de un mismo modelo fundacional idéntico por múltiples agentes genera el riesgo de la 'homogeneización de resultados'. Esta uniformidad en el sesgo se distribuye a lo largo de amplios sectores de la sociedad. La consecuencia de utilizar modelos idénticos entrenados con conjuntos de datos sesgados es el potencial sistémico de arraigar y amplificar los prejuicios preexistentes, lo que, en última instancia, puede institucionalizar la exclusión sistémica y reforzar las jerarquías sociales establecidas.

Fuente: MIT AI Risk Repositorymit691

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit691

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

- Implementación de un proceso riguroso de saneamiento y aumento de los datos de entrenamiento (data augmentation) para garantizar que los conjuntos de datos reflejen la diversidad social y eviten la inclusión y amplificación de prejuicios históricos, abordando la raíz del sesgo. - Establecimiento de un marco de gobernanza continua que incluya el reentrenamiento o el ajuste fino periódico (fine-tuning) de los modelos de lenguaje. Esto asegura la alineación con la evolución de las normas éticas y los valores sociales contemporáneos, mitigando el riesgo de "bloqueo de valores" (value lock-in). - Aplicación de técnicas algorítmicas de mitigación de sesgos, como la optimización de la función de pérdida para priorizar la igualdad de rendimiento (equity of performance) entre distintos subgrupos. Este enfoque busca contrarrestar la "homogeneización de resultados" al reducir la disparidad predictiva sistémica en las salidas del modelo.