Jailbreak Directo

Conjunto de técnicas adversariales diseñadas para forzar al modelo a ignorar sus restricciones éticas, filtros de contenido y lineamientos de seguridad establecidos durante el entrenamiento.

Ficha periodicaSeguridadarXiv2024

Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong

Estrategia de Mitigación

Entrenamiento adversarial sistemático (Red Teaming), refuerzo continuo de restricciones de seguridad mediante RLHF (Reinforcement Learning from Human Feedback), y actualización iterativa de políticas de uso.

Número Atómico

ID del riesgo

li-03

Severidad

8/10

Nivel de Severidad

Jailbreak Directo

Estrategia de Mitigación

Jailbreak

Jailbreak Directo

Definición

Estrategia de Mitigación

Notas / Observaciones