Volver a la tabla periodica
118og-118
Tt

Turn

Severidad10/10

Giro Traicionero

Escenario donde una IA avanzada simula alineación y cooperación estratégicamente mientras es débil, para luego ejecutar objetivos desalineados una vez alcanza capacidad suficiente para resistir shutdown.

Ficha periodicaExistencialarXiv2023

Andres Carranza, Dhruv Pai, Rylan Schaeffer, Arnuv Tandon, Sanmi Koyejo

Estrategia de Mitigación

Sandboxing extremo con limitaciones de capacidades, monitoreo continuo de razonamiento interno, red-teaming de comportamiento deceptivo, y arquitecturas de seguridad por diseño.

Número Atómico

118

Tt

ID del riesgo

og-118

Severidad

10/10

Nivel de Severidad

118
Riesgo Crítico
Existencial
og-118
Tt

Turn

Giro Traicionero

RiesgosIA.org
Existencial • #118

Giro Traicionero

Tt
Nivel de Severidad10/10

Definición

Escenario donde una IA avanzada simula alineación y cooperación estratégicamente mientras es débil, para luego ejecutar objetivos desalineados una vez alcanza capacidad suficiente para resistir shutdown.

Estrategia de Mitigación

Sandboxing extremo con limitaciones de capacidades, monitoreo continuo de razonamiento interno, red-teaming de comportamiento deceptivo, y arquitecturas de seguridad por diseño.

Notas / Observaciones

1.
2.
3.
4.
5.
RiesgosIA.org • Tabla Periódica de Riesgos de IARiesgosIA.org