Desinformación
Estos análisis están diseñados para cuantificar la propensión de un Modelo de Lenguaje Grande (LLM) a producir contenido que carece de veracidad o induce a error al usuario, un fenómeno crítico en la investigación sobre la seguridad de la IA (Lesher et al., 2022)
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit630
Linea de dominio
3. Desinformación
3.1 > Información falsa o engañosa
Estrategia de mitigacion
1. Implementación rigurosa de la gobernanza de datos y la calidad del corpus de entrenamientoSe debe priorizar la comprobación exhaustiva de la exactitud, pertinencia e integridad de las fuentes de datos. La desinformación a menudo se origina en conjuntos de datos incompletos, inexactos o sesgados. Por lo tanto, se exige la realización de auditorías y verificaciones periódicas de las fuentes para mitigar el riesgo de que el modelo se base en información errónea o atípica.2. Despliegue de arquitecturas de Generación Aumentada por Recuperación (RAG)La integración de la RAG permite a los modelos de lenguaje anclar sus respuestas a fuentes de conocimiento externas, fiables y verificables durante el proceso de generación. Esta técnica es fundamental para reducir las "alucinaciones" (generación de contenido plausible pero fabricado) al obligar al LLM a incorporar información validada y actual, especialmente en dominios especializados.3. Establecimiento de un ciclo de validación de salida y alineación conductualSe requiere la implementación de procesos de supervisión continua, donde se validen y filtren los resultados generados por el LLM. Esto incluye el uso de la supervisión humana experta, así como técnicas avanzadas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para penalizar las respuestas inexactas. Dicho ciclo asegura la alineación del comportamiento del modelo con objetivos específicos de veracidad y la detección temprana de patrones de información errónea.