Alucinación
El concepto de "alucinación" se refiere a la generación de contenido objetivamente incorrecto o inveraz por parte de un modelo de IA. Esto ocurre cuando la salida no tiene una base verificable ni en los datos con los que fue entrenado ni en la entrada específica proporcionada por el usuario. En la jerga técnica, esta divergencia fundamental se denomina *falta de fidelidad* o *ausencia de fundamentación*.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1184
Linea de dominio
3. Desinformación
3.1 > Información falsa o engañosa
Estrategia de mitigacion
1. Implementación de la Generación Aumentada por Recuperación (RAG) Integrar un sistema de recuperación externo que obtenga información fidedigna y actualizada de una base de conocimiento verificada antes de la generación de la respuesta. Esto ancla la salida del Modelo de Lenguaje Grande (LLM) a fuentes concretas, reduciendo drásticamente la tendencia a confabular información y permitiendo la trazabilidad. 2. Refinamiento del Modelo con Verificación de Hechos y RLHF Durante las fases de entrenamiento y ajuste fino, incorporar mecanismos algorítmicos para la verificación de hechos o sistemas de referencia cruzada. Emplear el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) para penalizar de forma sistemática la generación de contenido inveraz o infundado, orientando el modelo hacia respuestas más cautelosas y verídicas. 3. Establecimiento de Guardarraíles y Monitoreo Post-Generación Implementar reglas de validación y modelos de verificación cruzada para evaluar la coherencia y plausibilidad de las respuestas antes de que se entreguen al usuario. En aplicaciones críticas, es imperativo establecer un sistema de supervisión humana (Human-in-the-Loop) para la revisión final y corrección de alucinaciones, complementado con análisis de transparencia para rastrear el proceso de toma de decisiones del modelo.