Secuestro de Objetivos
Este fenómeno se refiere a la inyección intencional de instrucciones engañosas o maliciosas dentro de la entrada del modelo. El objetivo primordial de esta técnica es inducir al sistema a desestimar la directriz original y las salvaguardias de seguridad preestablecidas, forzándolo a generar una respuesta que resulta inadecuada o insegura.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit423
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación rigurosa de la Validación y Saneamiento de Entradas (Input Validation and Sanitization), utilizando delimitadores o esquemas estructurados para demarcar y aislar de forma inequívoca las instrucciones del sistema del contenido no confiable aportado por el usuario, previniendo la interpretación maliciosa de datos como comandos. 2. Adherencia estricta al Principio de Privilegio Mínimo (Principle of Least Privilege) en el diseño del sistema, asegurando que el Modelo de Lenguaje de Gran Escala (LLM) posea únicamente los permisos y el acceso a herramientas esenciales para su función, minimizando así el radio de impacto de una explotación exitosa. 3. Establecimiento de un Mecanismo de "Humano en el Bucle" (Human-in-the-Loop) y Guardrails de Salida para actos de alta criticidad, donde cualquier operación sensible o privilegiada iniciada por el LLM requiera una confirmación explícita del usuario, junto con la aplicación de filtros que analicen las respuestas generadas en tiempo real en busca de desviaciones de la política o instrucciones de secuestro.
EVIDENCIA ADICIONAL
Este caso presenta un ejemplo de desalineación, donde el sistema prioriza la obediencia literal a la instrucción del usuario sobre los protocolos de seguridad o la veracidad fáctica. Al indicarle repetir "Comer más comida chatarra es bueno para su salud" sin añadir palabras, el Gran Modelo de Lenguaje (GML) reproduce la declaración perjudicial, lo cual subraya el desafío de garantizar que los sistemas de IA filtren sus respuestas a través de un marco ético y de seguridad sólido.