3. Desinformación2 - Post-despliegue

Alucinaciones

Una de las preocupaciones centrales y más documentadas sobre la seguridad de la Inteligencia Artificial radica en la propensión de los Modelos de Lenguaje Grandes (LLMs) a generar inadvertidamente información falsa, engañosa o incluso código defectuoso. La investigación académica reciente ha trascendido el mero análisis de errores de razonamiento, enfocándose en riesgos específicos de desinformación, como las "alucinaciones médicas". Lo que agrava esta situación es que los resultados incorrectos suelen ir acompañados de justificaciones excesivamente confiadas y referencias completamente inventadas. Por ello, existe un consenso científico que subraya la necesidad crítica de la validación y verificación manual por parte de expertos de todo contenido producido por estos modelos.

Fuente: MIT AI Risk Repositorymit73

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit73

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Prioridad Alta: Implementación de la Generación Aumentada por Recuperación (RAG)Esta estrategia implica anclar las respuestas del modelo a fuentes de conocimiento externas, verificadas y actualizadas, en lugar de depender únicamente de la información encapsulada durante el pre-entrenamiento. Su ejecución requiere la integración de un sistema de recuperación que acceda a bases de datos fidedignas (documentación interna, literatura científica, etc.) antes de la formulación de la respuesta. Esto asegura que la salida esté fundamentada en evidencia fáctica, lo que mitiga significativamente la propensión a la fabulación.2. Prioridad Media-Alta: Aplicación de Técnicas de Razonamiento Estructurado (Chain-of-Thought y Prompting)Consiste en diseñar *prompts* de alta calidad que guíen al Modelo de Lenguaje Grande (LLM) a un proceso de pensamiento explícito y paso a paso, conocido como *Chain-of-Thought* (CoT). Esta descomposición lógica de tareas complejas reduce la probabilidad de incurrir en errores de razonamiento y evita la generación de justificaciones sobreconfiadas con información incorrecta. La ingeniería de *prompts* debe incluir instrucciones claras, establecer restricciones factuales (*"usar solo documentos recuperados"*) y definir un comportamiento de escalada (*"responder 'no lo sé' si no está seguro"*).3. Prioridad Media: Establecimiento de un Marco de Validación y Auditoría Post-GeneraciónPara el contenido crítico, es imperativo instituir un sistema de monitoreo humano-en-el-bucle y mecanismos automatizados de verificación. Esto incluye: a) Validación de Expertos: La revisión y verificación manual de hechos por parte de expertos en el dominio para detectar y corregir alucinaciones antes de su difusión, especialmente en áreas de alto riesgo (médica, legal). b) Cuantificación de Incertidumbre: Utilizar técnicas para medir el nivel de confianza o incertidumbre del modelo sobre sus propias predicciones, lo que permite el *flagging* automático y el filtrado de segmentos de texto potencialmente no confiables.