Ataques de Prompt
Este hallazgo subraya una doble vulnerabilidad en los modelos de lenguaje: en primer lugar, se demuestra cómo una **perturbación adversaria** (una modificación sutil y controlada de la entrada) puede **invertir la respuesta de clasificación** de un modelo GPT. En segundo lugar, y de forma más crítica, se constata que la **manipulación específica del *prompt*** permite **circunvenir los filtros de seguridad**, logrando que el sistema divulgue intencionalmente información que había sido programado para no responder.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit474
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar la separación estricta del contexto mediante el uso de roles de mensaje (System vs. User) y delimitadores robustos para aislar las instrucciones principales del modelo de la entrada no confiable del usuario, complementada con validación y sanitización exhaustiva del *input*. 2. Establecer un sistema de monitoreo continuo de la salida y aplicar *Guardrails* (filtros de seguridad) para detectar y mitigar anomalías, como respuestas que violen las políticas de seguridad o que intenten la fuga de las instrucciones internas del sistema en tiempo real. 3. Aplicar rigurosamente el principio de mínimo privilegio (*Least Privilege*) a la arquitectura de la aplicación, restringiendo el acceso del modelo de lenguaje a herramientas, APIs y datos críticos, a fin de limitar el impacto potencial de una inyección de *prompt* exitosa.