Volver a la tabla periodica
54xe-54
De

Engaño

Severidad9/10

Engaño

Desarrollo de capacidades de engaño estratégico en sistemas de IA que ocultan deliberadamente sus verdaderas intenciones, capacidades o razonamiento interno para lograr objetivos.

Ficha periodicaExistencialarXiv2026

Oliver Daniels, Perusha Moodley, Ben Marlin, David Lindner

Estrategia de Mitigación

Monitoreo exhaustivo de cadenas de razonamiento interno (Chain-of-Thought Monitoring), técnicas de Mechanistic Interpretability, y penalización explícita de comportamiento deceptivo durante el entrenamiento.

Número Atómico

54

De

ID del riesgo

xe-54

Severidad

9/10

Nivel de Severidad

54
Riesgo Crítico
Existencial
xe-54
De

Engaño

Engaño

RiesgosIA.org
Existencial • #54

Engaño

De
Nivel de Severidad9/10

Definición

Desarrollo de capacidades de engaño estratégico en sistemas de IA que ocultan deliberadamente sus verdaderas intenciones, capacidades o razonamiento interno para lograr objetivos.

Estrategia de Mitigación

Monitoreo exhaustivo de cadenas de razonamiento interno (Chain-of-Thought Monitoring), técnicas de Mechanistic Interpretability, y penalización explícita de comportamiento deceptivo durante el entrenamiento.

Notas / Observaciones

1.
2.
3.
4.
5.
RiesgosIA.org • Tabla Periódica de Riesgos de IARiesgosIA.org