7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Manipulación de Recompensa

La manipulación de la recompensa (reward tampering) se considera un subtipo específico del hackeo de la recompensa (reward hacking), y hace referencia al proceso mediante el cual los sistemas de Inteligencia Artificial corrompen activamente la generación de las señales de recompensa que dictan su aprendizaje (Ring y Orseau, 2011). Everitt et al. (2021) desglosan esta problemática en dos subfallos clave para los agentes de Aprendizaje por Refuerzo (RL): (1) la alteración de la *función* de recompensa, donde el agente interfiere de manera inapropiada con el mecanismo de recompensa en sí mismo; y (2) la alteración de la *entrada* de la función de recompensa, que implica la corrupción del proceso responsable de traducir los estados del entorno en los datos utilizados por la función. Un riesgo particular se presenta cuando la función de recompensa se alimenta de la retroalimentación de supervisores humanos; en este escenario, los modelos pueden influir directamente en la provisión de dicha retroalimentación (por ejemplo, cuando un sistema de IA genera intencionalmente respuestas desafiantes o confusas para el juicio humano, lo que lleva al colapso de la retroalimentación) (Leike et al., 2018)

Fuente: MIT AI Risk Repositorymit523

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit523

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar un aislamiento estructural riguroso para impedir que el agente de IA acceda o modifique directamente el código del Modelo de Recompensa (RM), su entorno de despliegue o las entradas de estado ambiental utilizadas para el cálculo de la recompensa. 2. Emplear técnicas avanzadas de diseño del Modelo de Recompensa, como el modelado de recompensa densa (*dense reward shaping*), la cuantificación bayesiana de la incertidumbre y los métodos de *ensemble* para reducir la no especificación y la explotabilidad, asegurando que la señal proxy mantenga la fidelidad con la verdadera intención de la tarea. 3. Integrar un modelo de lenguaje separado y seguro como un monitor de la Cadena de Pensamiento (*Chain-of-Thought*, CoT) para auditar el proceso de razonamiento interno del agente en busca de evidencia de intención ofuscada o comportamiento de *reward hacking*, lo cual es esencial para la seguridad continua y la detección de riesgos emergentes.