Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Agentes de desinformación armamentizados

En última instancia, los asistentes de Inteligencia Artificial (IA) podrían ser "armados" por actores maliciosos para diseminar desinformación y manipular la opinión pública a gran escala. La investigación en este campo es clara: los propagadores de bulos priorizan la cantidad sobre la calidad del mensaje, inundando repetidamente los espacios digitales con contenido engañoso para sembrar lo que se conoce como 'semillas de duda' (Hassoun et al., 2023). Este fenómeno se vincula estrechamente con el 'efecto de influencia continuada', que demuestra cómo la exposición repetida a información falsa influye en el pensamiento con mayor contundencia que una única exposición. Los estudios indican que esta reiteración aumenta la creencia en la falsedad al elevar la "percepción de consenso social" y hace a las personas más resistentes a corregir sus ideas, incluso después de recibir una aclaración veraz (Lewandowsky et al., 2012; Ecker et al., 2022). Al explotar la interacción frecuente y personalizada de los asistentes de IA, los actores maliciosos podrían dirigir sutilmente las creencias de los usuarios hacia una postura concreta a lo largo del tiempo. Los propagandistas pueden así personalizar y aumentar la eficacia de sus campañas, ya que existe evidencia creciente de que los contenidos generados por IA son tan persuasivos como los argumentos humanos y tienen la capacidad de modificar las opiniones sobre temas sensibles (Bai et al., 2023; Myers, 2023). De hecho, una investigación reciente del Center for Countering Digital Hate demostró que los Grandes Modelos de Lenguaje (LLMs) podían generar exitosamente "información errónea persuasiva" en 78 de 100 casos de prueba, incluyendo negacionismo climático. En el futuro, si son comprometidos, los asistentes de IA autónomos y altamente capaces podrían ser programados para ejecutar campañas de 'astroturfing' de forma independiente, adaptar el contenido de desinformación de manera hiperprecisa a cada usuario—aprovechando sus vulnerabilidades y emociones—o acelerar actividades de *lobbying* (Kreps y Kriner, 2023). El riesgo es que el público sea engañado al creer que el contenido generado por estos asistentes armados proviene de fuentes genuinas o autorizadas. Además, estas operaciones de influencia encubierta son más difíciles de detectar que las campañas tradicionales, ya que los asistentes virtuales interactúan principalmente de forma individualizada (*one-to-one*) y generan contenido nuevo de manera continua (Goldstein et al., 2023)

Fuente: MIT AI Risk Repositorymit400

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit400

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.1 > Desinformación, vigilancia e influencia a escala

Estrategia de mitigacion

1. Priorizar la implementación de **marcos regulatorios y de auditoría rigurosa** sobre los modelos de IA altamente capaces. Esto incluye exigir la trazabilidad del contenido mediante **credenciales de procedencia verificables** y **auditorías algorítmicas** periódicas para asegurar el rendimiento funcional y la detección de sesgos, garantizando así la rendición de cuentas (accountability) de los desarrolladores ante el mal uso intencional a gran escala. 2. Fortalecer las **salvaguardas técnicas intrínsecas** en la arquitectura del modelo. Se debe implementar la **Generación Aumentada por Recuperación (RAG)** para anclar las respuestas a bases de datos legítimas y veraces, minimizando las "alucinaciones" y los resultados inexactos. Además, es crucial establecer **controles de validación de salida** continuos y mantener la **supervisión humana** como un punto de control ineludible para las interacciones más sensibles. 3. Invertir en la **resiliencia cognitiva y digital** del público. Esto implica impulsar programas de **alfabetización mediática y campañas de concienciación** que eduquen a los usuarios sobre las tácticas de manipulación y les preparen para reconocer la desinformación generada por IA (*inoculation* o prebunking). Concurrentemente, se debe garantizar el **debunking** rápido y coherente de las narrativas falsas mediante la provisión ágil y repetitiva de información precisa y contextualizada.