3. Desinformación2 - Post-despliegue

Alucinaciones

Este riesgo se describe como la tendencia de los Modelos de Lenguaje Grande (LLM) a generar contenido que, si bien es lingüísticamente fluido y cohesivo, es **fácticamente incorrecto, inconsistente o directamente inventado**. En el ámbito de la seguridad de la IA, este fallo se denomina formalmente **"alucinación de la IA"**. Esta no es una simple inexactitud, sino una consecuencia directa del diseño intrínseco de los LLMs. Su función primaria es la **predicción secuencial de *tokens***; es decir, están optimizados para ensamblar la respuesta más probable a una solicitud, no necesariamente la más verídica. Por ende, el modelo puede proyectar una certeza inmerecida sobre datos fabricados o no fundamentados, lo que socava la confiabilidad en campos donde la precisión es crítica.

Fuente: MIT AI Risk Repositorymit38

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit38

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

Prioridad 1: Integración de Generación Aumentada por Recuperación (RAG) y Fundamentación Contextual (Grounding) Se debe establecer un sistema RAG que incorpore un módulo de recuperación para acceder a fuentes de conocimiento externas, fidedignas y validadas antes de la generación de la respuesta. Esta técnica es fundamental para anclar la salida del Modelo de Lenguaje Grande (LLM) a datos fácticos y minimizar activamente la invención de información no corroborada, elevando significativamente la precisión factual. Prioridad 2: Optimización de la Solicitud Mediante Técnicas de Razonamiento Explícito (Chain-of-Thought - CoT) Se requiere el diseño de prompts estructurados que induzcan al modelo a articular su proceso de inferencia y lógica de manera secuencial (CoT), mejorando la trazabilidad y exactitud del razonamiento. Conjuntamente, se deben imponer restricciones estrictas que exijan la citación de fuentes y la implementación de una estrategia de escape (e.g., responder con "Insuficiente evidencia") ante la incertidumbre, evitando la fabulación. Prioridad 3: Implantación de un Marco Riguroso de Evaluación Factual y Supervisión Humana Es imperativo instituir bucles de retroalimentación y mecanismos continuos de verificación de la veracidad. Esto incluye el uso de métricas de evaluación específicas para la factualidad (como FactScore o RAGAS) y la integración de un proceso Human-in-the-Loop (HITL) para la revisión y validación de las respuestas críticas en entornos de alto riesgo (como los sectores legal o sanitario), sirviendo como capa final de mitigación y corrección.