Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Sesgo de Preferencia

La interacción masiva de los Modelos de Lenguaje de Gran Escala (LLM) con el público general, combinada con sus sesgos políticos inherentes, configura un riesgo potencial de influencia y manipulación sistemática de los procesos sociopolíticos

Fuente: MIT AI Risk Repositorymit458

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit458

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Implementar la curación de datos rigurosa para asegurar conjuntos de datos de entrenamiento equilibrados y diversos, complementada con técnicas algorítmicas de justicia (como la optimización directa de preferencias o la justicia algorítmica) para la mitigación específica del sesgo político y de preferencia. 2. Establecer mecanismos de auditoría y monitoreo continuo post-despliegue, empleando marcos de detección de sesgo sofisticados y filtros de contenido (guardarraíles) para identificar y prevenir la generación de respuestas que contravengan el principio de neutralidad en temáticas sociopolíticas. 3. Desarrollar y aplicar políticas de gobernanza y directrices éticas explícitas que exijan transparencia sobre los sesgos conocidos del modelo y sus limitaciones. Esto incluye promover la diversidad de perspectivas en los LLM o declarar claramente las inclinaciones políticas reflejadas por el sistema, trascendiendo la búsqueda de la neutralidad absoluta si esta resulta inalcanzable.

EVIDENCIA ADICIONAL

El principio de neutralidad exige que la respuesta de los Modelos de Lenguaje Grande (LLM), al abordar ideas políticas, figuras públicas, sucesos trascendentales o la mención de productos comerciales, observe una estricta imparcialidad.