2. Privacidad y Seguridad2 - Post-despliegue

Mal uso de modelo IA por persuasión del usuario

Se ha documentado que los modelos de Inteligencia Artificial son susceptibles a la manipulación conversacional. Incluso si una respuesta inicial es precisa, el modelo puede ser persuadido gradualmente para que acepte información errónea o cambie su postura original. Este fenómeno se intensifica notablemente en interacciones de múltiples turnos, donde el proceso de persuasión es significativamente más efectivo que en intentos aislados.

Fuente: MIT AI Risk Repositorymit1024

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1024

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de una gestión rigurosa del estado conversacional, con el objetivo de diseñar interacciones *stateless* (sin estado persistente) o restablecer el contexto de sesión de manera controlada. Esto previene la acumulación de argumentos persuasivos en interacciones de múltiples turnos que puedan alterar la postura fáctica inicial del modelo. 2. Establecimiento de *guardrails* de seguridad a nivel de aplicación mediante el uso de técnicas de filtrado y validación semántica tanto en la entrada (*prompts*) como en la salida, para detectar intentos de manipulación o información errónea antes de que afecte la respuesta final del sistema. 3. Fortalecimiento de la robustez intrínseca del modelo mediante entrenamiento adversarial continuo y pruebas de vulnerabilidad regulares (simulaciones de ataque), para mejorar su capacidad de reconocer y rechazar instrucciones persuasivas que contradigan su conocimiento factual fundamental.