Volver a la tabla periodica
18ar-18
Rh

Hacking

Severidad9/10

Hackeo de Recompensa

Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.

Ficha periodicaExistencialarXiv2026

Mohammad Beigi, Ming Jin, Junshan Zhang, Jiaxin Zhang, Qifan Wang, Lifu Huang

Estrategia de Mitigación

Diseño cuidadoso y refinamiento iterativo de funciones de recompensa, uso de técnicas de Reward Modeling con feedback humano, y evaluación del comportamiento en entornos diversos.

Número Atómico

18

Rh

ID del riesgo

ar-18

Severidad

9/10

Nivel de Severidad

18
Riesgo Crítico
Existencial
ar-18
Rh

Hacking

Hackeo de Recompensa

RiesgosIA.org
Existencial • #18

Hackeo de Recompensa

Rh
Nivel de Severidad9/10

Definición

Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.

Estrategia de Mitigación

Diseño cuidadoso y refinamiento iterativo de funciones de recompensa, uso de técnicas de Reward Modeling con feedback humano, y evaluación del comportamiento en entornos diversos.

Paper de Referencia

IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking

Autores: Mohammad Beigi, Ming Jin, Junshan Zhang, Jiaxin Zhang, Qifan Wang, Lifu Huang

Fuente: arXiv · arXiv:2602.19416 · 2026

Enlace: https://arxiv.org/abs/2602.19416v1

Notas / Observaciones

1.
2.
3.
4.
5.
RiesgosIA.org • Tabla Periódica de Riesgos de IARiesgosIA.org