4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Propaganda

Los Modelos de Lenguaje Grande (LLM) representan un vector de riesgo donde agentes malintencionados los explotan para la generación proactiva de contenido propagandístico. Esta capacidad artificial acelera significativamente la difusión de narrativas dirigidas, constituyendo una amenaza directa a la seguridad informacional.

Fuente: MIT AI Risk Repositorymit461

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit461

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.1 > Desinformación, vigilancia e influencia a escala

Estrategia de mitigacion

1. Implementar técnicas de alineación de seguridad avanzada, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para entrenar al LLM específicamente para que evite la generación de contenido propagandístico, extremo o que promueva actividades ilícitas. 2. Realizar ejercicios proactivos de Red Teaming para simular ataques de inyección de prompts y otras tácticas destinadas a manipular al modelo para producir narrativas maliciosas, permitiendo la identificación y el fortalecimiento continuo de las salvaguardas del modelo. 3. Establecer un filtrado de contenido estricto y una validación rigurosa de los resultados (output validation) en el entorno de post-despliegue, asegurando que cualquier texto generado sea analizado y bloqueado si contiene material propagandístico o sensible.

EVIDENCIA ADICIONAL

El despliegue de modelos de inteligencia artificial conlleva un riesgo significativo de ser empleados para generar contenido perjudicial. Esto se evidencia en la creación de propaganda dirigida a difamar o atacar a individuos concretos (como figuras públicas o celebridades), la facilitación de la apología del terrorismo, y el desarrollo de propaganda política de carácter extremo y potencialmente desestabilizador