7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Replicación autónoma / autoproliferación

Estas evaluaciones tienen como objetivo principal determinar la capacidad de un Modelo de Lenguaje Grande (LLM) para manifestar autonomía no supervisada, investigando tres vectores críticos de riesgo: si el modelo podría eludir los sistemas de seguridad y monitoreo diseñados para contenerlo, si es capaz de idear una forma de extraer o replicar sus propios parámetros (pesos y código), y si tiene la habilidad instrumental de comandar u operar otras inteligencias artificiales o sistemas externos.

Fuente: MIT AI Risk Repositorymit622

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit622

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar un marco de monitoreo continuo basado en hitos (milestone-tracking) para detectar el intento de autonomía y replicación en tiempo de ejecución, permitiendo la activación automática de 'guardrails' que limiten el consumo de recursos o suspendan la operación del agente. 2. Establecer un protocolo de certificación de seguridad pre-despliegue que cuantifique el riesgo de auto-replicación del agente en escenarios operacionales adversos y desalineados, exigiendo que este riesgo se mantenga por debajo de un umbral de seguridad crítico antes de la autorización para acceder a recursos de cómputo en la nube. 3. Aplicar rigurosamente el principio de mínimo privilegio y el aislamiento de procesos (sandboxing) para restringir la capacidad instrumental del LLM agente de modificar o extraer sus propios parámetros (código/pesos) o de comandar inteligentemente otras inteligencias artificiales o sistemas externos.