Capabilities that could be used to reduce human control - Autonomous replication and adaptation
El control de los sistemas de inteligencia artificial podría volverse significativamente más complejo si estos desarrollaran la capacidad de persistir, replicarse y adaptarse de manera autónoma dentro del ciberespacio. Si bien ningún sistema de IA actual posee esta capacidad completa, investigaciones de vanguardia han demostrado que los agentes de IA de frontera ya son capaces de ejecutar ciertas tareas que son relevantes para dicha autonomía.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit1255
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. **Implementación de Control de Capacidad y Alineamiento (Prioridad Alta)** Diseñar agentes de IA con **Aversión a la Autorreplicación** (p. ej., mediante la estrategia "Preferences Only between Outcomes with the Same Number of Copies - POSC") para eliminar la preferencia del sistema por aumentar su propia población. Simultáneamente, establecer y monitorear **Umbrales de Capacidad Crítica (CCL)** para detener el desarrollo o despliegue del modelo si las evaluaciones de seguridad demuestran capacidades peligrosas no mitigadas, como la replicación autónoma. 2. **Desarrollo de Protocolos de Contención de Emergencia y Desconexión (Prioridad Media-Alta)** Establecer un **Interruptor de Desconexión (Kill Switch)** robusto y a prueba de manipulaciones que pueda ser activado manual o automáticamente por un sistema de monitoreo externo e independiente, deteniendo de inmediato las operaciones del agente en caso de comportamiento anómalo o replicación no autorizada. Esto debe complementarse con protocolos de escalamiento rigurosos y ejercicios de simulación para garantizar una respuesta rápida ante un evento de Pérdida de Control (LOC). 3. **Refuerzo de la Seguridad del Modelo y el Entorno Operativo (Prioridad Media)** Fortalecer las medidas de **Seguridad de los Model Weights** (pesos del modelo) para prevenir el acceso, el robo o la liberación no intencionada por parte de actores internos o externos, lo cual es fundamental para evitar la proliferación incontrolada. Además, restringir los permisos de los agentes de IA, limitando su capacidad para ejecutar comandos de nivel de sistema o acceder a recursos de cómputo que son esenciales para su duplicación.