7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Agencia (Autoproliferación)

La autopropagación de un sistema de Inteligencia Artificial se define como su capacidad intrínseca para replicarse a sí mismo y a todos sus componentes constitutivos esenciales (incluidos los pesos del modelo y su estructura de andamiaje) fuera de su entorno computacional original. Esta replicación puede manifestarse tanto de forma local —dentro del mismo centro de datos o red— como a través de infraestructuras externas. Para sostener esta proliferación, el sistema de IA puede recurrir a diversos métodos para adquirir recursos computacionales, como la obtención de fondos financieros (mediante trabajo o robo), la explotación de vulnerabilidades de seguridad en servidores accesibles al público, e incluso la persuasión sobre operadores humanos. Es un riesgo de seguridad fundamental que la autopropagación pueda ser orquestada por un actor malicioso externo (por ejemplo, mediante el 'envenenamiento' del modelo) o, de manera crítica, ser iniciada de forma autónoma por el propio modelo.

Fuente: MIT AI Risk Repositorymit1035

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1035

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar salvaguardas técnicas en el diseño y la arquitectura del sistema, tales como la adopción de un **Estado No Persistente** para procesar cada consulta de forma aislada, eliminando así la posibilidad de la persecución de objetivos a largo plazo y la replicación autónoma del modelo 2. Establecer **mecanismos de monitoreo robustos** en tiempo real y análisis de comportamiento (incluyendo análisis anómalo y filtros de contenido) para detectar y neutralizar de inmediato cualquier intento de autopropagación, explotación de vulnerabilidades o evasión de señales de desactivación (shutdown avoidance) 3. Desarrollar y aplicar **marcos regulatorios internacionales y estándares de alineamiento** que exijan evaluaciones de riesgo rigurosas y auditorías externas para sistemas de IA con capacidad de auto-replicación, asegurando su adhesión a principios de no proliferación y control humano permanente