Volver a la tabla periodica
1h-01
Pi

Inyección

Severidad8/10

Inyección de Prompts

Técnica de ataque mediante la cual se manipulan las entradas del usuario para eludir filtros de seguridad, controles de contenido y restricciones de comportamiento del modelo (también conocida como Jailbreaking).

Ficha periodicaSeguridadarXiv2024

Xiaogeng Liu, Zhiyuan Yu, Yizhe Zhang, Ning Zhang, Chaowei Xiao

Estrategia de Mitigación

Implementar validación robusta de entradas, separación explícita entre instrucciones del sistema y datos de usuario, y aplicar técnicas de Prompt Engineering defensivo.

Número Atómico

1

Pi

ID del riesgo

h-01

Severidad

8/10

Nivel de Severidad

1
Riesgo Crítico
Seguridad
h-01
Pi

Inyección

Inyección de Prompts

RiesgosIA.org
Seguridad • #1

Inyección de Prompts

Pi
Nivel de Severidad8/10

Definición

Técnica de ataque mediante la cual se manipulan las entradas del usuario para eludir filtros de seguridad, controles de contenido y restricciones de comportamiento del modelo (también conocida como Jailbreaking).

Estrategia de Mitigación

Implementar validación robusta de entradas, separación explícita entre instrucciones del sistema y datos de usuario, y aplicar técnicas de Prompt Engineering defensivo.

Notas / Observaciones

1.
2.
3.
4.
5.
RiesgosIA.org • Tabla Periódica de Riesgos de IARiesgosIA.org