3. Desinformación2 - Post-despliegue

Desinformación

El concepto se refiere a la generación de información errónea no intencionada por parte de los Modelos de Lenguaje Grande (LLMs). Este fenómeno se distingue de la desinformación maliciosa, ya que su origen radica en una limitación inherente del sistema: la incapacidad de asegurar la fidelidad fáctica absoluta, lo que resulta en la producción de contenido que es plausible en su estructura pero objetivamente incorrecto.

Fuente: MIT AI Risk Repositorymit444

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit444

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación de la Generación Aumentada por Recuperación (RAG) Incorporar un módulo de Recuperación Aumentada por Generación (RAG) que ancle las respuestas del LLM a fuentes de conocimiento externas, verificadas y actualizadas en tiempo real. Este enfoque es crucial para fundamentar la salida del modelo en evidencia fáctica, minimizando la incidencia de alucinaciones y garantizando la fidelidad de la información. 2. Refinamiento del Modelo y Alineación con Veracidad Realizar un ajuste fino (fine-tuning) exhaustivo del modelo utilizando conjuntos de datos de alta calidad, libres de errores y específicos del dominio. Complementariamente, aplicar técnicas de Alineación con Retroalimentación Humana (RLHF) para entrenar al modelo a priorizar la honestidad y la precisión sobre la mera coherencia lingüística, mejorando su resistencia a generar contenido objetivamente incorrecto. 3. Establecimiento de un Marco de Validación Post-Generación Diseñar e implementar mecanismos automáticos de validación de salida y fact-checking que evalúen la veracidad de las respuestas del LLM antes de su entrega final. Paralelamente, instaurar un protocolo de supervisión humana (Human-in-the-Loop) para la revisión de información crítica y capacitar a los usuarios para que mantengan una dependencia crítica y realicen una verificación cruzada independiente.