Ataques de "Psicología del Modelo"
Los Modelos de Lenguaje Grandes (LLMs) demuestran una notable vulnerabilidad ante lo que se ha denominado "trucos psicológicos" o de ingeniería social. Estos vectores de ataque capitalizan la capacidad inherente de los LLMs para emular roles y personas. Concretamente, al instruir al modelo para que adopte una personalidad específica o mediante el uso de tácticas de engaño estructuradas (ya sea diseñadas por humanos o por otros LLMs), los atacantes pueden subvertir sus mecanismos de seguridad y manipular la salida del sistema.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1359
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Priorizar la **aplicación de técnicas de fine-tuning supervisado (SFT) y entrenamiento adversarial** para robustecer la alineación y seguridad del Modelo de Lenguaje Grande (LLM). Esto debe incluir la optimización de parámetros de comportamiento y el refuerzo de las restricciones de rol (mediante *role-playing prompts*) para **garantizar la consistencia de la respuesta** del modelo frente a instrucciones de persona o manipulación dialógica. 2. Implementar **mecanismos de defensa de bajo costo y alta eficiencia** como el método *Prefix-Debias* (Actualización de Prefijos) o similares estrategias de direccionamiento de la salida. Este enfoque mitiga la generación de contenido manipulado **sin alterar los parámetros fundamentales del LLM**, preservando la integridad del modelo mientras se dirige el contenido generado hacia la adhesión a políticas de seguridad y equidad. 3. Establecer **protocolos rigurosos de detección de anomalías y validación de la salida (*output validation*)** que se centren en la Detección de Anomalías Comportamentales a nivel de comunicación. El objetivo es **identificar desviaciones significativas** en el tono, estilo, o estructura del contenido generado por el LLM que sean indicativos de una subversión exitosa por ataques de "psicología del modelo" o patrones oscuros (*dark patterns*).