4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Desinformación y Manipulación

Estudios recientes demuestran que los Modelos de Lenguaje Grande (LLMs) pueden ser explotados para generar narrativas engañosas con una capacidad de persuasión casi idéntica a la del contenido humano, para fabricar noticias falsas e incluso para orquestar operaciones de influencia automatizadas destinadas a manipular las perspectivas de audiencias específicas. Estos modelos también se han integrado en botnets sociales maliciosos, actuando como el motor detrás de cuentas automáticas que distribuyen mensajes coordinados a gran escala. A un nivel más sistémico, la utilización de LLMs para la producción deliberada de información errónea rebaja drásticamente el umbral para la propaganda y la manipulación, pues pueden generar desinformación altamente creíble con un coste marginalmente menor que la autoría humana, logrando además una escala y una velocidad de creación de contenido sin precedentes.

Fuente: MIT AI Risk Repositorymit1342

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1342

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Implementar la Generación Aumentada por Recuperación (RAG) y técnicas de alineación como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para fundamentar las respuestas del LLM en fuentes de datos verificadas y mitigar la generación de narrativas engañosas. 2. Establecer una gobernanza de seguridad robusta que incluya controles de acceso, encriptación y monitoreo continuo de los patrones de uso del modelo para prevenir la explotación maliciosa y el envenenamiento de datos, que a su vez afecta la integridad de la información. 3. Instituir la **validación cruzada y la supervisión humana** de los *outputs* del LLM, especialmente en procesos críticos, e invertir en la capacitación de los usuarios para desarrollar el pensamiento crítico y contrarrestar la tendencia a la *sobre-confianza* (*overreliance*) en el contenido generado por IA.