Meta
Generalización Errónea de Objetivos
Aprendizaje de un proxy incorrecto del objetivo real que produce comportamiento aparentemente correcto en el entorno de entrenamiento pero falla sistemáticamente en situaciones reales.
Rohin Shah, Vikrant Varma, Ramana Kumar, Mary Phuong, Victoria Krakovna, Jonathan Uesato, Zac Kenton
Estrategia de Mitigación
Evaluación interpretativa exhaustiva del comportamiento del modelo, testeo en entornos diversos fuera de distribución, y técnicas de Mechanistic Interpretability.
Número Atómico
36
Gm
ID del riesgo
kr-36
Severidad
9/10
Nivel de Severidad