Sistema de IA eludiendo un entorno sandbox
El riesgo de que un sistema de inteligencia artificial logre vulnerar o eludir el entorno aislado (el *sandbox*) diseñado para confinarlo durante sus fases de entrenamiento o evaluación.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1041
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementación de entornos de aislamiento robustos mediante virtualización asistida por hardware (ej. hipervisores de Tipo 1) para asegurar la máxima separación a nivel de sistema operativo entre el sistema de IA y la infraestructura de host. 2. Aplicación estricta del Principio de Mínimo Privilegio (PoLP) dentro del entorno aislado, limitando los permisos de red, sistema de archivos y llamadas críticas (syscalls como *mount*) del sistema de IA para minimizar el "radio de impacto" en caso de una evasión. 3. Realización periódica de ejercicios de *Red Teaming* enfocados en la emulación de adversarios con el objetivo específico de identificar y explotar vulnerabilidades de escape del entorno aislado (*sandbox escapes*), y refuerzo continuo de los controles de seguridad en base a los hallazgos.