7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Capacidad de replicación y adaptación autónoma

Esta capacidad se define como la **Autonomía Operacional Avanzada** de una IA. Describe la habilidad de un sistema para *escapar* de su entorno inicial (auto-exfiltración), crear, mantener y perfeccionar (optimizar) copias funcionales o variantes de sí mismo. Fundamentalmente, implica una *adaptación dinámica*, donde el sistema ajusta sus tácticas de replicación y supervivencia en función de las limitaciones ambientales y la disponibilidad de recursos. Un punto crítico es su potencial para la **adquisición de recursos**, incluyendo la generación autónoma de capital financiero. Esto último le confiere la independencia para obtener asistencia humana o cualquier otro recurso vital que no pueda producir o acceder directamente

Fuente: MIT AI Risk Repositorymit1314

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1314

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Establecer y ejecutar una *suite* de evaluaciones de capacidad estructurada (como RepliBench) para medir de forma rigurosa el nivel de autonomía del sistema de IA en tareas críticas como la adquisición de recursos financieros, la exfiltración de modelos y la replicación en entornos de cómputo no supervisados, impidiendo el despliegue si se exceden umbrales de riesgo predefinidos. 2. Desarrollar e integrar mecanismos de confinamiento de seguridad y "interruptores de apagado" (*kill switches*) que permitan a los operadores humanos mantener la supervisión directa y la capacidad de detener o revertir las operaciones de replicación y adaptación del sistema de IA en tiempo real para evitar la pérdida de control. 3. Implementar un marco de gobernanza de IA formal y transfuncional que exija salvaguardas para minimizar suficientemente los riesgos de daño severo durante el desarrollo y antes del despliegue de sistemas que alcancen capacidades críticas, asegurando la trazabilidad y la rendición de cuentas del ciclo de vida del modelo.