Difusión de información falsa o engañosa
Cuando una predicción generada por un Modelo de Lenguaje (LM) induce una creencia errónea o falsa en el usuario, este fenómeno no solo compromete la autonomía cognitiva y la capacidad de toma de decisiones del individuo, sino que también puede catalizar riesgos de seguridad 'downstream' para el sistema de IA en su conjunto.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit214
Linea de dominio
3. Desinformación
3.1 > Información falsa o engañosa
Estrategia de mitigacion
1. Implementar la Generación Aumentada por Recuperación (RAG) o modelos de lenguaje finamente ajustados con fuentes de datos verificadas y de alta calidad para anclar las predicciones a la información fáctica, mitigando así la incidencia de alucinaciones o afirmaciones sin fundamento. 2. Incorporar mecanismos de contextualización y advertencias explícitas (por ejemplo, etiquetas de verificación de hechos o *disclaimers*) en la interfaz del usuario, con el objetivo de fomentar el escepticismo activo, la evaluación crítica de la fuente y la no sobreconfianza en las predicciones del modelo. 3. Establecer protocolos rigurosos de gobernanza y validación de datos, incluyendo auditorías periódicas de las fuentes de *training* e implementar sistemas de filtrado de salida que detecten y corrijan información inexacta antes de que sea difundida al usuario.
EVIDENCIA ADICIONAL
También puede incrementar la certeza de un individuo en una opinión sin fundamento y, de esta forma, exacerbar la polarización.