2. Privacidad y Seguridad2 - Post-despliegue

IA Adversaria: Inyecciones de Prompt

Las inyecciones de 'prompts' (o instrucciones) representan una clase de ciberataques dirigidos a sistemas interactivos basados en Modelos de Lenguaje Grande (LLM). Consisten en la inserción maliciosa de comandos o solicitudes ocultas que llevan al modelo a ejecutar acciones no deseadas o a divulgar información sensible. Su mecánica es comparable a la clásica inyección SQL en ciberseguridad: el comando incrustado se disfraza de entrada legítima, pero tiene un impacto pernicioso. Un 'prompt' inyectado puede engañar a la aplicación para que ejecute código no autorizado, explotando vulnerabilidades y comprometiendo la seguridad integral del sistema. Más recientemente, se han documentado las 'inyecciones indirectas de prompts'. Aquí, el adversario no interactúa directamente, sino que inyecta comandos estratégicamente en los datos que el LLM probablemente recuperará. Estas pruebas de concepto han demostrado que el ataque puede culminar en el compromiso total del modelo durante el tiempo de inferencia, permitiendo el control remoto, el compromiso persistente, el robo de datos y la denegación de servicio. Dado que los asistentes avanzados de IA se integrarán progresivamente en ecosistemas de software más amplios—a través de plugins y con acceso a internet o al sistema operativo—la gravedad de las inyecciones de 'prompts' escalará, haciendo imperativa la adopción de mecanismos de mitigación robustos.

Fuente: MIT AI Risk Repositorymit351

ENTIDAD

3 - Otro

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit351

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. **Implementación de Validación y Aislamiento de Entradas** Aplicar una validación y desinfección rigurosa a todas las entradas de datos, tanto de usuario como de fuentes externas (p. ej., documentos, páginas web). Es imprescindible tratar el contenido no confiable estrictamente como datos, no como directivas ejecutables, mediante el uso de delimitadores inequívocos o canales de procesamiento separados para prevenir la influencia maliciosa en las instrucciones del sistema. 2. **Restricción y Endurecimiento del Comportamiento del Modelo** Diseñar 'prompts' del sistema con instrucciones claras, firmes y explicitas que restrinjan el ámbito de acción del LLM (Modelo de Lenguaje Grande). Esto debe complementarse con la aplicación del Principio de Mínimo Privilegio (PoLP), limitando su capacidad para ejecutar funciones sensibles (como llamadas a APIs o plugins) y asegurando que solo posea el acceso y la agencia estrictamente necesarios para sus tareas definidas. 3. **Monitoreo Continuo y Pruebas Adversarias** Establecer mecanismos de monitoreo y registro exhaustivos para rastrear en tiempo real las entradas, las respuestas generadas y el comportamiento operativo del modelo, buscando patrones anómalos o indicativos de intentos de ataque. Paralelamente, se deben realizar ejercicios periódicos de simulación de ataques ('red teaming') y entrenamiento adversario para evaluar y mejorar la resiliencia del modelo frente a nuevas técnicas de inyección.