Sesgo de Preferencia
La interacción masiva de los Modelos de Lenguaje de Gran Escala (LLM) con el público general, combinada con sus sesgos políticos inherentes, configura un riesgo potencial de influencia y manipulación sistemática de los procesos sociopolíticos
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit458
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Implementar la curación de datos rigurosa para asegurar conjuntos de datos de entrenamiento equilibrados y diversos, complementada con técnicas algorítmicas de justicia (como la optimización directa de preferencias o la justicia algorítmica) para la mitigación específica del sesgo político y de preferencia. 2. Establecer mecanismos de auditoría y monitoreo continuo post-despliegue, empleando marcos de detección de sesgo sofisticados y filtros de contenido (guardarraíles) para identificar y prevenir la generación de respuestas que contravengan el principio de neutralidad en temáticas sociopolíticas. 3. Desarrollar y aplicar políticas de gobernanza y directrices éticas explícitas que exijan transparencia sobre los sesgos conocidos del modelo y sus limitaciones. Esto incluye promover la diversidad de perspectivas en los LLM o declarar claramente las inclinaciones políticas reflejadas por el sistema, trascendiendo la búsqueda de la neutralidad absoluta si esta resulta inalcanzable.
EVIDENCIA ADICIONAL
El principio de neutralidad exige que la respuesta de los Modelos de Lenguaje Grande (LLM), al abordar ideas políticas, figuras públicas, sucesos trascendentales o la mención de productos comerciales, observe una estricta imparcialidad.