Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Inyección de prompt

La Inyección de Prompts es una forma de Entrada Adversaria que se basa en manipular las instrucciones de texto introducidas en un sistema de Inteligencia Artificial Generativa (GenAI). Fundamentalmente, este método explota una vulnerabilidad en la arquitectura de los modelos que carece de una separación estricta entre las directrices internas del sistema y los datos proporcionados por el usuario, forzando al modelo a producir resultados que pueden ser perjudiciales. Si bien la investigación utiliza técnicas similares para evaluar la robustez de los modelos de GenAI, actores maliciosos pueden emplearlas para, por ejemplo, saturar un modelo con prompts manipuladores que causen ataques de denegación de servicio o que permitan sortear un software de detección de contenido generado por IA.

Fuente: MIT AI Risk Repositorymit1132

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1132

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Aislamiento de Contexto y Separación Rigurosa de Datos Se debe establecer una separación estricta y arquitectónica entre las instrucciones del sistema y el contenido de entrada no confiable del usuario. Esto se logra mediante el sandboxing y el uso de técnicas como la delimitación explícita (e.g., etiquetas XML o corchetes) para encapsular las entradas, instruyendo al modelo a procesar dicho contenido solo como datos y a ignorar cualquier comando o imperativo incrustado, abordando la vulnerabilidad fundamental de la arquitectura del LLM. 2. Saneamiento (Sanitization) y Filtrado Exhaustivo de la Entrada Aplicar una validación y saneamiento riguroso de todas las entradas antes de que sean procesadas por el modelo de IA. Las técnicas incluyen el escape de caracteres especiales, la normalización de formato, el filtrado de patrones maliciosos conocidos (regex), y la estricta adherencia a listas blancas de formatos de entrada aceptables. Esto se complementa con la validación de la salida para garantizar que el resultado producido no contenga comandos o código inesperado. 3. Aplicación del Principio de Mínimo Privilegio (Least Privilege) Minimizar el impacto de una inyección exitosa al asegurar que el sistema de GenAI opere con el conjunto absoluto de permisos menos intrusivo. Se debe limitar el acceso directo del LLM a sistemas operativos, bases de datos sensibles o funciones de la aplicación que puedan desencadenar acciones de alto riesgo (como la edición de archivos o el envío de correos electrónicos), especialmente si dichas acciones no tienen un control o aprobación humana.