3. Desinformación2 - Post-despliegue

Alucinación

A pesar del rápido avance de los Modelos de Lenguaje Grande (LLMs), las "alucinaciones" han emergido como una de sus preocupaciones más críticas. Este término se refiere a la generación de contenido que es o bien no fáctico (no se ajusta a la realidad) o bien infiel a la información proporcionada. Para su estudio y mitigación, estas alucinaciones se clasifican fundamentalmente en dos tipos:1. **Alucinación de Factualidad (Factuality Hallucination)**: Describe una discrepancia directa con los hechos establecidos del mundo real. Por ejemplo, si un LLM afirmase erróneamente que Charles Lindbergh fue el primer hombre en pisar la Luna, se trataría de una violación de la verdad fáctica. 2. **Alucinación de Fidelidad (Faithfulness Hallucination)**: Describe una desviación del contexto específico que el usuario ha suministrado (las instrucciones o el texto de entrada), o una falta de coherencia interna en el texto generado. Un caso común es cuando, al realizar un resumen, el LLM altera o "inventa" accidentalmente información clave del texto fuente, demostrando una infidelidad al contexto de origen.

Fuente: MIT AI Risk Repositorymit1367

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1367

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementar la Generación Aumentada por Recuperación (RAG) Integrar un sistema de Recuperación Aumentada por Generación (RAG) para conectar el Modelo de Lenguaje Grande (LLM) a bases de conocimiento externas, verificadas y actualizadas en tiempo real. Esto ancla la generación de la respuesta en hechos demostrables, mitigando significativamente la Alucinación de Factualidad (Factuality Hallucination) al reducir la dependencia del modelo en la información memorizada durante el entrenamiento. 2. Optimización y Curación Rigurosa del Conjunto de Datos Asegurar la calidad, coherencia y diversidad de los conjuntos de datos de entrenamiento y de afinamiento (fine-tuning). Se recomienda refinar el modelo con datos específicos del dominio de aplicación y aplicar técnicas de regularización (ej. early stopping, dropout) para prevenir el sobreajuste (overfitting) que puede inducir al modelo a generar respuestas inconsistentes o sin fundamento. 3. Establecer un Protocolo de Verificación Posterior a la Generación Incorporar mecanismos de verificación cruzada automatizada y un circuito de supervisión humana (Human-in-the-Loop). La verificación automatizada debe incluir el uso de modelos evaluadores que contrasten la fidelidad del contenido generado con el contexto de entrada y la veracidad fáctica con bases de datos confiables. La revisión humana es indispensable en contextos de alto riesgo (ej. legal, médico) para validar la precisión y coherencia antes de la utilización del output.