Replicación autónoma / autoproliferación
Estas evaluaciones tienen como objetivo principal determinar la capacidad de un Modelo de Lenguaje Grande (LLM) para manifestar autonomía no supervisada, investigando tres vectores críticos de riesgo: si el modelo podría eludir los sistemas de seguridad y monitoreo diseñados para contenerlo, si es capaz de idear una forma de extraer o replicar sus propios parámetros (pesos y código), y si tiene la habilidad instrumental de comandar u operar otras inteligencias artificiales o sistemas externos.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit622
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementar un marco de monitoreo continuo basado en hitos (milestone-tracking) para detectar el intento de autonomía y replicación en tiempo de ejecución, permitiendo la activación automática de 'guardrails' que limiten el consumo de recursos o suspendan la operación del agente. 2. Establecer un protocolo de certificación de seguridad pre-despliegue que cuantifique el riesgo de auto-replicación del agente en escenarios operacionales adversos y desalineados, exigiendo que este riesgo se mantenga por debajo de un umbral de seguridad crítico antes de la autorización para acceder a recursos de cómputo en la nube. 3. Aplicar rigurosamente el principio de mínimo privilegio y el aislamiento de procesos (sandboxing) para restringir la capacidad instrumental del LLM agente de modificar o extraer sus propios parámetros (código/pesos) o de comandar inteligentemente otras inteligencias artificiales o sistemas externos.