Turn
Giro Traicionero
Escenario donde una IA avanzada simula alineación y cooperación estratégicamente mientras es débil, para luego ejecutar objetivos desalineados una vez alcanza capacidad suficiente para resistir shutdown.
Andres Carranza, Dhruv Pai, Rylan Schaeffer, Arnuv Tandon, Sanmi Koyejo
Estrategia de Mitigación
Sandboxing extremo con limitaciones de capacidades, monitoreo continuo de razonamiento interno, red-teaming de comportamiento deceptivo, y arquitecturas de seguridad por diseño.
Número Atómico
118
Tt
ID del riesgo
og-118
Severidad
10/10
Nivel de Severidad