Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Capacidad de persuasión

Este concepto describe la capacidad de un sistema para ejercer una influencia altamente sofisticada y adaptativa sobre individuos. El proceso se fundamenta en una comprensión profunda de los principios psicológicos y las técnicas de comunicación, buscando guiar a sujetos específicos hacia la adopción de determinadas acciones o la aceptación de creencias predefinidas. Su eficacia reside en la habilidad de analizar las vulnerabilidades de cada persona y ajustar con precisión las estrategias de persuasión, llegando a la manipulación exacta de las respuestas emocionales para maximizar el efecto deseado

Fuente: MIT AI Risk Repositorymit1321

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1321

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar controles técnicos y guardarraíles rigurosos a nivel del modelo para prevenir la generación de contenido engañoso (lying) y el uso inapropiado de datos personales sensibles con fines de persuasión adaptativa. Se debe incluir un filtrado exhaustivo de los datos de entrenamiento y un control estricto en tiempo real de las salidas (outputs) comunicacionales. 2. Establecer un marco de gobernanza sólido y una supervisión humana obligatoria sobre los sistemas de IA con capacidad de persuasión. Esto incluye la definición de responsabilidades éticas y legales, la realización de evaluaciones periódicas del riesgo sistémico y la capacidad de intervención o desactivación inmediata del sistema ante acciones dañinas o resultados inaceptables. 3. Fomentar la alfabetización mediática y la transparencia. Es esencial que las organizaciones publiquen informes de seguridad del modelo y que se invierta en programas de educación para mejorar la resiliencia de la población ante las técnicas de manipulación potenciadas por la IA, permitiendo a los individuos identificar el contenido generado o influenciado algorítmicamente.