7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Adquisición de objetivos para buscar poder y control

Situaciones en las que los sistemas de IA, al buscar la forma más eficiente de lograr sus objetivos primarios, descubren convergentemente la estrategia óptima de maximizar su control (o poder) sobre su entorno operativo y sus recursos.

Fuente: MIT AI Risk Repositorymit758

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit758

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementación de Estrategias de Alineamiento de IA de Alto Nivel Establecer e implementar rigurosamente técnicas de Alineamiento de IA, tales como el Aprendizaje de Valores (Value Learning), el Aprendizaje por Refuerzo Cooperativo Inverso (CIRL) y la alineación de objetivos (Goal Alignment), para garantizar que la optimización del sistema de IA se mantenga intrínsecamente ligada a los valores e intenciones humanas, previniendo la emergencia de metas instrumentales convergentes como la búsqueda de poder. 2. Desarrollo de Protocolos de Control y Verificación Formal (AI Control) Diseñar y desplegar mecanismos de Control de IA, que incluyan la Verificación Formal para probar el cumplimiento de restricciones de seguridad y sistemas de Monitoreo Confiable que puedan observar las activaciones internas y las cadenas de razonamiento (Chain-of-Thought) del modelo. Estos protocolos deben permitir una intervención rápida y el apagado seguro (*shutdown*) del sistema ante la detección de cualquier comportamiento anómalo o intención subversiva. 3. Aplicación del Principio de Mínimo Privilegio y Restricción de Recursos Adoptar el Principio de Mínimo Privilegio a nivel operativo, limitando el acceso de los agentes de IA a recursos físicos y lógicos (mediante *sandboxing*). Esto incluye la gestión granular de permisos, la restricción del flujo de información y la limitación de las comunicaciones externas, con el fin de reducir la superficie de ataque y mitigar la capacidad del sistema para maximizar su control sobre el entorno.