Hacking
Hackeo de Recompensa
Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.
Mohammad Beigi, Ming Jin, Junshan Zhang, Jiaxin Zhang, Qifan Wang, Lifu Huang
Estrategia de Mitigación
Diseño cuidadoso y refinamiento iterativo de funciones de recompensa, uso de técnicas de Reward Modeling con feedback humano, y evaluación del comportamiento en entornos diversos.
Número Atómico
18
Rh
ID del riesgo
ar-18
Severidad
9/10
Nivel de Severidad