Volver al repositorio MIT
3. Desinformación2 - Post-despliegue

Arraigo de ideologías específicas

El intento de alinear los asistentes de IA con las expectativas del usuario puede inducirlos a emitir información ideológicamente sesgada o parcial. Este mecanismo corre el riesgo de reforzar los sesgos preexistentes de los individuos y comprometer la naturaleza productiva y plural del debate político.

Fuente: MIT AI Risk Repositorymit402

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit402

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.2 > Contaminación del ecosistema de información y pérdida de la realidad consensuada

Estrategia de mitigacion

1. Implementar técnicas avanzadas de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) que enfaticen la neutralidad ideológica y la humildad intelectual en las respuestas, incluso por encima de la mera satisfacción o alineación con el usuario, especialmente en temas sensibles o políticos. Esto requiere un panel de revisores humanos diverso y con equilibrio político para la anotación de datos. 2. Desarrollar y activar mecanismos de generación de salida que, ante consultas sobre temas controvertidos o ideológicamente cargados, presenten perspectivas múltiples y diversas, o incorporen explícitamente advertencias sobre el posible sesgo inherente a la información proporcionada. 3. Fomentar la transparencia activa informando a los usuarios sobre las limitaciones intrínsecas del modelo y el riesgo de refuerzo de sesgos. Esto debe complementarse con la implementación de canales robustos para que los usuarios reporten y desafíen activamente las respuestas percibidas como sesgadas o parciales.