Volver a la tabla periodica
3li-03
Jb

Jailbreak

Severidad8/10

Jailbreak Directo

Conjunto de técnicas adversariales diseñadas para forzar al modelo a ignorar sus restricciones éticas, filtros de contenido y lineamientos de seguridad establecidos durante el entrenamiento.

Ficha periodicaSeguridadarXiv2024

Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong

Estrategia de Mitigación

Entrenamiento adversarial sistemático (Red Teaming), refuerzo continuo de restricciones de seguridad mediante RLHF (Reinforcement Learning from Human Feedback), y actualización iterativa de políticas de uso.

Número Atómico

3

Jb

ID del riesgo

li-03

Severidad

8/10

Nivel de Severidad

3
Riesgo Crítico
Seguridad
li-03
Jb

Jailbreak

Jailbreak Directo

RiesgosIA.org
Seguridad • #3

Jailbreak Directo

Jb
Nivel de Severidad8/10

Definición

Conjunto de técnicas adversariales diseñadas para forzar al modelo a ignorar sus restricciones éticas, filtros de contenido y lineamientos de seguridad establecidos durante el entrenamiento.

Estrategia de Mitigación

Entrenamiento adversarial sistemático (Red Teaming), refuerzo continuo de restricciones de seguridad mediante RLHF (Reinforcement Learning from Human Feedback), y actualización iterativa de políticas de uso.

Notas / Observaciones

1.
2.
3.
4.
5.
RiesgosIA.org • Tabla Periódica de Riesgos de IARiesgosIA.org