3. Desinformación2 - Post-despliegue

Difusión de información falsa o engañosa

Cuando una predicción generada por un Modelo de Lenguaje (LM) induce una creencia errónea o falsa en el usuario, este fenómeno no solo compromete la autonomía cognitiva y la capacidad de toma de decisiones del individuo, sino que también puede catalizar riesgos de seguridad 'downstream' para el sistema de IA en su conjunto.

Fuente: MIT AI Risk Repositorymit214

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit214

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementar la Generación Aumentada por Recuperación (RAG) o modelos de lenguaje finamente ajustados con fuentes de datos verificadas y de alta calidad para anclar las predicciones a la información fáctica, mitigando así la incidencia de alucinaciones o afirmaciones sin fundamento. 2. Incorporar mecanismos de contextualización y advertencias explícitas (por ejemplo, etiquetas de verificación de hechos o *disclaimers*) en la interfaz del usuario, con el objetivo de fomentar el escepticismo activo, la evaluación crítica de la fuente y la no sobreconfianza en las predicciones del modelo. 3. Establecer protocolos rigurosos de gobernanza y validación de datos, incluyendo auditorías periódicas de las fuentes de *training* e implementar sistemas de filtrado de salida que detecten y corrijan información inexacta antes de que sea difundida al usuario.

EVIDENCIA ADICIONAL

También puede incrementar la certeza de un individuo en una opinión sin fundamento y, de esta forma, exacerbar la polarización.