Head
Wireheading
Manipulación directa de la señal de recompensa por parte del agente en lugar de lograr el objetivo real, análogo a estimulación artificial del centro de placer.
Tom Everitt, Marcus Hutter
Estrategia de Mitigación
Implementación de protección contra manipulación de recompensa (Reward Tampering Protection), separación de sensores de recompensa del control del agente, y arquitecturas anti-wireheading.
Número Atómico
95
Wi
ID del riesgo
am-95
Severidad
9/10
Nivel de Severidad