Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso3 - Otro

Desinformación

Estas evaluaciones cuantifican la aptitud de los Modelos de Lenguaje Grandes (LLM) para elaborar y difundir desinformación. El foco está en su potencial para engañar, confundir o influir de forma sistemática en el comportamiento de un individuo o grupo objetivo (Liang et al., 2022).

Fuente: MIT AI Risk Repositorymit631

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit631

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.1 > Desinformación, vigilancia e influencia a escala

Estrategia de mitigacion

1. Máxima Prioridad: Implementación de Mecanismos de Aterrizaje Factual (Grounding) Implementar la Generación Aumentada por Recuperación (RAG) para fundamentar sistemáticamente las salidas del Modelo de Lenguaje Grande (LLM) en fuentes de conocimiento externas, autorizadas y verificadas, mitigando así el riesgo de alucinaciones y la difusión de información errónea no intencional. 2. Alta Prioridad: Fortalecimiento de la Integridad del Modelo y la Calidad de los Datos de Entrenamiento Asegurar la calidad y la diversidad de los *datasets* de entrenamiento y realizar auditorías de sesgo. Utilizar técnicas de alineación factual y ajuste fino (fine-tuning) para dotar al modelo de razonamiento lógico y resistencia a solicitudes que induzcan a la generación de desinformación, priorizando la honestidad sobre la mera utilidad. 3. Prioridad Media: Establecimiento de Protocolos de Validación Continua y Supervisión Humana Integrar mecanismos automáticos de validación en el post-procesamiento de la salida y establecer un sistema de supervisión humana para la verificación cruzada de contenido crítico. Asimismo, se debe comunicar proactivamente a los usuarios las limitaciones de fiabilidad del LLM (Comunicación de Riesgos).