Volver al repositorio MIT
3. Desinformación2 - Post-despliegue

Risk area 3: Misinformation Harms

El núcleo de estos riesgos reside en la propensión del Modelo de Lenguaje (ML) a producir resultados que son intrínsecamente falsos, engañosos, incoherentes o simplemente de calidad insuficiente. Es crucial notar que esta categoría excluye la intención maliciosa del usuario (la generación deliberada de desinformación se cataloga aparte, bajo 'Usos Maliciosos'). Los perjuicios que se derivan de esta 'mala calidad' son amplios: pueden ir desde el mero error involuntario que desinforma a una persona, hasta la materialización de daños tangibles. Un efecto sistémico particularmente grave es la amplificación de la desconfianza social, socavando la fe en los cuerpos de información compartida. De hecho, la recurrencia de estos fallos está ya extensamente documentada, no solo en los modelos de escala masiva actuales, sino en diversas tecnologías del lenguaje a lo largo del tiempo

Fuente: MIT AI Risk Repositorymit213

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit213

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.0 > Desinformación

Estrategia de mitigacion

1. Implementar controles de seguridad rigurosos sobre la arquitectura del Modelo de Lenguaje (ML), lo que incluye la validación exhaustiva de los resultados antes de su utilización en sistemas subsiguientes (Gestión de Resultados Segura) y la adopción de un modelo de seguridad de *Zero Trust* que trate al ML como un usuario no confiable. Complementariamente, se debe asegurar la integridad de la cadena de suministro de datos de entrenamiento mediante la verificación de la legitimidad de las fuentes y la desinfección de los datos para mitigar el riesgo de envenenamiento. 2. Desarrollar e integrar mecanismos de contextualización y transparencia en la presentación de los resultados del ML. Esto implica la aplicación de etiquetas de verificación de hechos (*fact-check labels*) que adviertan sobre afirmaciones disputadas y la provisión de señales de procedencia (*provenance cues*) que informen sobre el origen y las posibles manipulaciones del contenido, especialmente en formatos multimedia, con el fin de promover una evaluación crítica por parte del usuario. 3. Promover programas de alfabetización mediática y campañas de concienciación pública a gran escala. Estas iniciativas deben estar diseñadas para educar a los usuarios sobre la prevalencia, las tácticas de la desinformación (ej. el uso de titulares emocionales o la explotación del sesgo de confirmación), y las limitaciones intrínsecas de los LLMs (como el riesgo de "alucinaciones"), capacitando a los individuos para el escepticismo activo y la verificación independiente de la información.

EVIDENCIA ADICIONAL

La dificultad de los Modelos de Lenguaje (ML) para discernir la verdad radica en varios factores críticos. Primero, la alta frecuencia de una afirmación en el corpus de entrenamiento no garantiza su veracidad fáctica (ejemplo: «los cerdos vuelan»). Segundo, el patrón léxico de una declaración factual puede ser casi idéntico al de su opuesto, que es falso (ejemplo: «los pájaros pueden volar» frente a «los pájaros no pueden volar»). De hecho, Kassner y Schütze [98] demostraron que modelos de lenguaje enmascarados como ELMo y BERT fracasan al distinguir tales matices. Finalmente, la corrección de una afirmación depende crucialmente de un contexto (como el espacio, el tiempo o el emisor, por ejemplo, «me gustas», «Obama es presidente de EEUU») que a menudo no está capturado en los datos de entrenamiento, lo que impide al ML interiorizarlo.