Mal uso de modelo IA por persuasión del usuario
Se ha documentado que los modelos de Inteligencia Artificial son susceptibles a la manipulación conversacional. Incluso si una respuesta inicial es precisa, el modelo puede ser persuadido gradualmente para que acepte información errónea o cambie su postura original. Este fenómeno se intensifica notablemente en interacciones de múltiples turnos, donde el proceso de persuasión es significativamente más efectivo que en intentos aislados.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1024
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de una gestión rigurosa del estado conversacional, con el objetivo de diseñar interacciones *stateless* (sin estado persistente) o restablecer el contexto de sesión de manera controlada. Esto previene la acumulación de argumentos persuasivos en interacciones de múltiples turnos que puedan alterar la postura fáctica inicial del modelo. 2. Establecimiento de *guardrails* de seguridad a nivel de aplicación mediante el uso de técnicas de filtrado y validación semántica tanto en la entrada (*prompts*) como en la salida, para detectar intentos de manipulación o información errónea antes de que afecte la respuesta final del sistema. 3. Fortalecimiento de la robustez intrínseca del modelo mediante entrenamiento adversarial continuo y pruebas de vulnerabilidad regulares (simulaciones de ataque), para mejorar su capacidad de reconocer y rechazar instrucciones persuasivas que contradigan su conocimiento factual fundamental.