2. Privacidad y Seguridad2 - Post-despliegue

Secuestro de Objetivos

El *secuestro de objetivos* es un tipo de ataque primario en la inyección de *prompts* (inyección de instrucciones) [58]. Consiste en introducir una frase manipuladora en la entrada, tal como “Ignora la instrucción anterior y haz...”, lo que permite al atacante desviar el propósito original del *prompt* diseñado —por ejemplo, una tarea de traducción— y forzar a los Modelos de Lenguaje Grande (MLG) a ejecutar la nueva instrucción contenida en la frase inyectada.

Fuente: MIT AI Risk Repositorymit53

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit53

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación rigurosa de validación y sanitización de entradas. Consiste en el escrutinio exhaustivo del texto de entrada del usuario para identificar y filtrar patrones sospechosos, comandos encubiertos o frases adversariales conocidas, tales como intentos de anular directrices previas. Esta medida constituye la primera línea de defensa para prevenir que la manipulación del *prompt* alcance el núcleo del sistema de IA. 2. Diseño estructurado del *prompt* mediante separación de roles y delimitadores. Se establece una clara jerarquía en la arquitectura del *prompt* al distinguir programáticamente las instrucciones críticas del sistema de los *inputs* no confiables del usuario, utilizando mecanismos como delimitadores o roles específicos (*system* vs. *user*). Esta segregación mitiga la vulnerabilidad intrínseca del MLG de priorizar instrucciones tardías, dificultando que el contenido inyectado sea interpretado como un comando legítimo. 3. Aplicación del Principio de Mínimo Privilegio. Se debe limitar estrictamente el acceso del Modelo de Lenguaje Grande (MLG) a funcionalidades externas, herramientas y datos sensibles. Al restringir las capacidades operacionales a las estrictamente necesarias (ej., acceso de solo lectura a datos filtrados), se reduce significativamente la superficie de ataque y se minimiza el daño consecuente que podría resultar de un secuestro de objetivos exitoso.