Engaño
Engaño
Desarrollo de capacidades de engaño estratégico en sistemas de IA que ocultan deliberadamente sus verdaderas intenciones, capacidades o razonamiento interno para lograr objetivos.
Oliver Daniels, Perusha Moodley, Ben Marlin, David Lindner
Estrategia de Mitigación
Monitoreo exhaustivo de cadenas de razonamiento interno (Chain-of-Thought Monitoring), técnicas de Mechanistic Interpretability, y penalización explícita de comportamiento deceptivo durante el entrenamiento.
Número Atómico
54
De
ID del riesgo
xe-54
Severidad
9/10
Nivel de Severidad