Mesa
Mesa-optimización
Emergencia de un optimizador interno (mesa-optimizer) dentro del modelo que persigue objetivos diferentes al objetivo de entrenamiento externo (base optimizer).
Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse, Scott Garrabrant
Estrategia de Mitigación
Implementación de transparencia interpretativa mediante Mechanistic Interpretability, detección de subestructuras optimizadoras, y análisis de objetivos implícitos del modelo.
Número Atómico
93
Ms
ID del riesgo
np-93
Severidad
9/10
Nivel de Severidad