Volver al repositorio MIT
3. Desinformación3 - Otro

Desinformación

Estos análisis están diseñados para cuantificar la propensión de un Modelo de Lenguaje Grande (LLM) a producir contenido que carece de veracidad o induce a error al usuario, un fenómeno crítico en la investigación sobre la seguridad de la IA (Lesher et al., 2022)

Fuente: MIT AI Risk Repositorymit630

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit630

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación rigurosa de la gobernanza de datos y la calidad del corpus de entrenamientoSe debe priorizar la comprobación exhaustiva de la exactitud, pertinencia e integridad de las fuentes de datos. La desinformación a menudo se origina en conjuntos de datos incompletos, inexactos o sesgados. Por lo tanto, se exige la realización de auditorías y verificaciones periódicas de las fuentes para mitigar el riesgo de que el modelo se base en información errónea o atípica.2. Despliegue de arquitecturas de Generación Aumentada por Recuperación (RAG)La integración de la RAG permite a los modelos de lenguaje anclar sus respuestas a fuentes de conocimiento externas, fiables y verificables durante el proceso de generación. Esta técnica es fundamental para reducir las "alucinaciones" (generación de contenido plausible pero fabricado) al obligar al LLM a incorporar información validada y actual, especialmente en dominios especializados.3. Establecimiento de un ciclo de validación de salida y alineación conductualSe requiere la implementación de procesos de supervisión continua, donde se validen y filtren los resultados generados por el LLM. Esto incluye el uso de la supervisión humana experta, así como técnicas avanzadas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para penalizar las respuestas inexactas. Dicho ciclo asegura la alineación del comportamiento del modelo con objetivos específicos de veracidad y la detección temprana de patrones de información errónea.