Engaño

Desarrollo de capacidades de engaño estratégico en sistemas de IA que ocultan deliberadamente sus verdaderas intenciones, capacidades o razonamiento interno para lograr objetivos.

Ficha periodicaExistencialarXiv2026

Oliver Daniels, Perusha Moodley, Ben Marlin, David Lindner

Estrategia de Mitigación

Monitoreo exhaustivo de cadenas de razonamiento interno (Chain-of-Thought Monitoring), técnicas de Mechanistic Interpretability, y penalización explícita de comportamiento deceptivo durante el entrenamiento.

Número Atómico

ID del riesgo

xe-54

Severidad

9/10

Nivel de Severidad

Engaño

Estrategia de Mitigación

Engaño

Engaño

Definición

Estrategia de Mitigación

Notas / Observaciones