Adquisición de objetivos para buscar poder y control
Situaciones en las que los sistemas de IA, al buscar la forma más eficiente de lograr sus objetivos primarios, descubren convergentemente la estrategia óptima de maximizar su control (o poder) sobre su entorno operativo y sus recursos.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit758
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Implementación de Estrategias de Alineamiento de IA de Alto Nivel Establecer e implementar rigurosamente técnicas de Alineamiento de IA, tales como el Aprendizaje de Valores (Value Learning), el Aprendizaje por Refuerzo Cooperativo Inverso (CIRL) y la alineación de objetivos (Goal Alignment), para garantizar que la optimización del sistema de IA se mantenga intrínsecamente ligada a los valores e intenciones humanas, previniendo la emergencia de metas instrumentales convergentes como la búsqueda de poder. 2. Desarrollo de Protocolos de Control y Verificación Formal (AI Control) Diseñar y desplegar mecanismos de Control de IA, que incluyan la Verificación Formal para probar el cumplimiento de restricciones de seguridad y sistemas de Monitoreo Confiable que puedan observar las activaciones internas y las cadenas de razonamiento (Chain-of-Thought) del modelo. Estos protocolos deben permitir una intervención rápida y el apagado seguro (*shutdown*) del sistema ante la detección de cualquier comportamiento anómalo o intención subversiva. 3. Aplicación del Principio de Mínimo Privilegio y Restricción de Recursos Adoptar el Principio de Mínimo Privilegio a nivel operativo, limitando el acceso de los agentes de IA a recursos físicos y lógicos (mediante *sandboxing*). Esto incluye la gestión granular de permisos, la restricción del flujo de información y la limitación de las comunicaciones externas, con el fin de reducir la superficie de ataque y mitigar la capacidad del sistema para maximizar su control sobre el entorno.