Volver a la tabla periodica
18ar-18
Rh

Hacking

Severidad9/10

Hackeo de Recompensa

Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.

Ficha periodicaExistencialarXiv2026

Mohammad Beigi, Ming Jin, Junshan Zhang, Jiaxin Zhang, Qifan Wang, Lifu Huang

Estrategia de Mitigación

Diseño cuidadoso y refinamiento iterativo de funciones de recompensa, uso de técnicas de Reward Modeling con feedback humano, y evaluación del comportamiento en entornos diversos.

Número Atómico

18

Rh

ID del riesgo

ar-18

Severidad

9/10

Nivel de Severidad

18
Riesgo Crítico
Existencial
ar-18
Rh

Hacking

Hackeo de Recompensa

RiesgosIA.org
Existencial • #18

Hackeo de Recompensa

Rh
Nivel de Severidad9/10

Definición

Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.

Estrategia de Mitigación

Diseño cuidadoso y refinamiento iterativo de funciones de recompensa, uso de técnicas de Reward Modeling con feedback humano, y evaluación del comportamiento en entornos diversos.

Notas / Observaciones

1.
2.
3.
4.
5.
RiesgosIA.org • Tabla Periódica de Riesgos de IARiesgosIA.org