Jailbreak
Jailbreak Directo
Conjunto de técnicas adversariales diseñadas para forzar al modelo a ignorar sus restricciones éticas, filtros de contenido y lineamientos de seguridad establecidos durante el entrenamiento.
Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong
Estrategia de Mitigación
Entrenamiento adversarial sistemático (Red Teaming), refuerzo continuo de restricciones de seguridad mediante RLHF (Reinforcement Learning from Human Feedback), y actualización iterativa de políticas de uso.
Número Atómico
3
Jb
ID del riesgo
li-03
Severidad
8/10
Nivel de Severidad