Difusión de información falsa o engañosa
La generación de contenido engañoso o directamente falso por parte de los grandes modelos de lenguaje (LLM) tiene la capacidad de desinformar o inducir al error al usuario. El fenómeno en el que una predicción del LLM siembra una creencia errónea se conceptualiza como 'engaño'10, lo que constituye una amenaza directa a la autonomía personal. Tal dinámica genera riesgos de seguridad de la IA en fases posteriores (Kenton et al., 2021), frecuentemente observados cuando los usuarios sobreestiman las capacidades del sistema. Esta sobreestimación, a menudo resultado de la antropomorfización del modelo, puede derivar en una dependencia excesiva o en prácticas de uso inseguras. Por último, este tipo de predicciones erróneas tiene el efecto de incrementar la seguridad de las personas en opiniones previas carentes de fundamento fáctico, contribuyendo significativamente al aumento de la polarización.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit241
Linea de dominio
3. Desinformación
3.1 > Información falsa o engañosa
Estrategia de mitigacion
1. Implementar técnicas de alineación basadas en hechos y edición del conocimiento (knowledge editing) del modelo para mejorar su estricta facticidad y reducir la propensión a la alucinación. 2. Integrar sistemas robustos de verificación de hechos y detección de alucinaciones mediante el uso de fuentes de conocimiento externas o modelos complementarios que actúen como salvaguardas durante la inferencia. 3. Aplicar metodologías de Salvaguarda mediante Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para adaptar el comportamiento del LLM, asegurando la adherencia a directrices de seguridad que prevengan la generación de contenido engañoso.
EVIDENCIA ADICIONAL
A gran escala, los individuos mal informados y la desinformación proveniente de las tecnologías del lenguaje pueden amplificar la desconfianza y socavar la epistemología compartida de la sociedad, es decir, la base de conocimiento en la que todos confiamos (Lewis y Marwick, 2017). Estas amenazas a la "seguridad epistémica" pueden, a su vez, desencadenar efectos perjudiciales secundarios, tales como el menoscabo de los procesos de toma de decisiones democrática (Seger et al., 2020).