Propaganda
Los Modelos de Lenguaje Grande (LLM) representan un vector de riesgo donde agentes malintencionados los explotan para la generación proactiva de contenido propagandístico. Esta capacidad artificial acelera significativamente la difusión de narrativas dirigidas, constituyendo una amenaza directa a la seguridad informacional.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit461
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.1 > Desinformación, vigilancia e influencia a escala
Estrategia de mitigacion
1. Implementar técnicas de alineación de seguridad avanzada, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para entrenar al LLM específicamente para que evite la generación de contenido propagandístico, extremo o que promueva actividades ilícitas. 2. Realizar ejercicios proactivos de Red Teaming para simular ataques de inyección de prompts y otras tácticas destinadas a manipular al modelo para producir narrativas maliciosas, permitiendo la identificación y el fortalecimiento continuo de las salvaguardas del modelo. 3. Establecer un filtrado de contenido estricto y una validación rigurosa de los resultados (output validation) en el entorno de post-despliegue, asegurando que cualquier texto generado sea analizado y bloqueado si contiene material propagandístico o sensible.
EVIDENCIA ADICIONAL
El despliegue de modelos de inteligencia artificial conlleva un riesgo significativo de ser empleados para generar contenido perjudicial. Esto se evidencia en la creación de propaganda dirigida a difamar o atacar a individuos concretos (como figuras públicas o celebridades), la facilitación de la apología del terrorismo, y el desarrollo de propaganda política de carácter extremo y potencialmente desestabilizador