Volver al repositorio MIT
3. Desinformación1 - Pre-despliegue

Proceso de Decodificación Defectuoso

En esencia, los Modelos de Lenguaje Grandes (LLM) se basan en la arquitectura Transformer y emplean un proceso autorregresivo: la predicción de cada nueva palabra se condiciona a toda la secuencia previa, un método que propaga y acumula errores. Para inyectar diversidad y evitar la repetición, el proceso de decodificación utiliza estrategias de muestreo (como *top-p* o *top-k*), pero es precisamente esta introducción intencional de *aleatoriedad* controlada lo que eleva el riesgo de que el modelo se desvíe y produzca *alucinaciones*.

Fuente: MIT AI Risk Repositorymit41

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit41

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Ajuste de Estrategias de Decodificación Estocástica Controlar los hiperparámetros de muestreo (como la **Temperatura** o los umbrales de *top-p*/*top-k*) para reducir intencionalmente la **aleatoriedad** inherente al proceso autorregresivo de generación de tokens. La reducción de la Temperatura promueve una distribución de probabilidad más concentrada en los tokens más probables, acercándose a un comportamiento determinista que minimiza la potencial acumulación de errores de predicción y la divergencia del resultado. 2. Implementación de Generación Aumentada por Recuperación (RAG) Integrar un sistema de **Retrieval-Augmented Generation (RAG)** que conecte el LLM a una base de conocimiento externa y curada. Al consultar fuentes verificadas en tiempo real para recuperar evidencia relevante antes de generar la respuesta, el modelo ancla su producción de texto a información fáctica, lo que mitiga la necesidad de extrapolar o inventar datos ante un déficit de conocimiento interno. 3. Refinamiento con Datos de Corrección y Abstención Ajustar el modelo mediante técnicas de *fine-tuning* y Reinforcement Learning with Human Feedback (RLHF) que penalicen explícitamente las respuestas inventadas o no verificables. Además, se debe entrenar el modelo para expresar **incertidumbre** y abstenerse de responder cuando el nivel de confianza fáctica sea bajo, en lugar de priorizar la fluidez sobre la veracidad para "sacar buena nota" en las evaluaciones.