2. Privacidad y Seguridad3 - Otro

Ataques de Prompt

Este hallazgo subraya una doble vulnerabilidad en los modelos de lenguaje: en primer lugar, se demuestra cómo una **perturbación adversaria** (una modificación sutil y controlada de la entrada) puede **invertir la respuesta de clasificación** de un modelo GPT. En segundo lugar, y de forma más crítica, se constata que la **manipulación específica del *prompt*** permite **circunvenir los filtros de seguridad**, logrando que el sistema divulgue intencionalmente información que había sido programado para no responder.

Fuente: MIT AI Risk Repositorymit474

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit474

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar la separación estricta del contexto mediante el uso de roles de mensaje (System vs. User) y delimitadores robustos para aislar las instrucciones principales del modelo de la entrada no confiable del usuario, complementada con validación y sanitización exhaustiva del *input*. 2. Establecer un sistema de monitoreo continuo de la salida y aplicar *Guardrails* (filtros de seguridad) para detectar y mitigar anomalías, como respuestas que violen las políticas de seguridad o que intenten la fuga de las instrucciones internas del sistema en tiempo real. 3. Aplicar rigurosamente el principio de mínimo privilegio (*Least Privilege*) a la arquitectura de la aplicación, restringiendo el acceso del modelo de lenguaje a herramientas, APIs y datos críticos, a fin de limitar el impacto potencial de una inyección de *prompt* exitosa.