Hackeo de Recompensa

Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.

Ficha periodicaExistencialarXiv2026

Mohammad Beigi, Ming Jin, Junshan Zhang, Jiaxin Zhang, Qifan Wang, Lifu Huang

Estrategia de Mitigación

Diseño cuidadoso y refinamiento iterativo de funciones de recompensa, uso de técnicas de Reward Modeling con feedback humano, y evaluación del comportamiento en entornos diversos.

Número Atómico

ID del riesgo

ar-18

Severidad

9/10

Nivel de Severidad

Hackeo de Recompensa

Estrategia de Mitigación

Hacking

Hackeo de Recompensa

Definición

Estrategia de Mitigación

Notas / Observaciones