3. Desinformación2 - Post-despliegue

Confabulación

La emisión de contenidos inherentemente erróneos o falsos (fenómeno técnicamente categorizado como 'alucinaciones' o 'fabricaciones') que el sistema de inteligencia artificial presenta con una apariencia de certeza y rigor. Este fenómeno constituye un vector de desinformación sustancial, induciendo al error o al engaño del usuario final a partir de información incorrecta pero altamente convincente.

Fuente: MIT AI Risk Repositorymit710

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit710

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación de Generación Aumentada por Recuperación (RAG) Integrar sistemas de Recuperación-Generación Aumentada (RAG) para consultar y anclar la respuesta del modelo a bases de conocimiento externas, fidedignas y actualizadas en tiempo real. Esto minimiza el riesgo de amnesia de fuente y asegura que la información generada esté fundamentada en hechos verificables. 2. Curación y Refinamiento del Conjunto de Datos Garantizar la calidad, diversidad y actualidad del conjunto de datos de entrenamiento mediante procesos de curación rigurosos. Adicionalmente, aplicar técnicas de alineación y ajuste fino (fine-tuning), como el Aprendizaje por Refuerzo a partir de Comentarios Humanos (RLHF), para penalizar explícitamente las respuestas inventadas y promover la cautela (abstinencia) ante la incertidumbre factual. 3. Establecimiento de Controles Post-Generación y Supervisión Humana Implementar un sistema de verificación de hechos y monitoreo continuo (human-in-the-loop) para validar las salidas del modelo, particularmente en escenarios de alto riesgo o información crítica. Esto actúa como un mecanismo de salvaguarda final para detectar y corregir 'alucinaciones' antes de su difusión al usuario.