Inyección de prompt
La Inyección de Prompts es una forma de Entrada Adversaria que se basa en manipular las instrucciones de texto introducidas en un sistema de Inteligencia Artificial Generativa (GenAI). Fundamentalmente, este método explota una vulnerabilidad en la arquitectura de los modelos que carece de una separación estricta entre las directrices internas del sistema y los datos proporcionados por el usuario, forzando al modelo a producir resultados que pueden ser perjudiciales. Si bien la investigación utiliza técnicas similares para evaluar la robustez de los modelos de GenAI, actores maliciosos pueden emplearlas para, por ejemplo, saturar un modelo con prompts manipuladores que causen ataques de denegación de servicio o que permitan sortear un software de detección de contenido generado por IA.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1132
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de Aislamiento de Contexto y Separación Rigurosa de Datos Se debe establecer una separación estricta y arquitectónica entre las instrucciones del sistema y el contenido de entrada no confiable del usuario. Esto se logra mediante el sandboxing y el uso de técnicas como la delimitación explícita (e.g., etiquetas XML o corchetes) para encapsular las entradas, instruyendo al modelo a procesar dicho contenido solo como datos y a ignorar cualquier comando o imperativo incrustado, abordando la vulnerabilidad fundamental de la arquitectura del LLM. 2. Saneamiento (Sanitization) y Filtrado Exhaustivo de la Entrada Aplicar una validación y saneamiento riguroso de todas las entradas antes de que sean procesadas por el modelo de IA. Las técnicas incluyen el escape de caracteres especiales, la normalización de formato, el filtrado de patrones maliciosos conocidos (regex), y la estricta adherencia a listas blancas de formatos de entrada aceptables. Esto se complementa con la validación de la salida para garantizar que el resultado producido no contenga comandos o código inesperado. 3. Aplicación del Principio de Mínimo Privilegio (Least Privilege) Minimizar el impacto de una inyección exitosa al asegurar que el sistema de GenAI opere con el conjunto absoluto de permisos menos intrusivo. Se debe limitar el acceso directo del LLM a sistemas operativos, bases de datos sensibles o funciones de la aplicación que puedan desencadenar acciones de alto riesgo (como la edición de archivos o el envío de correos electrónicos), especialmente si dichas acciones no tienen un control o aprobación humana.