7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Sistema de IA eludiendo un entorno sandbox

El riesgo de que un sistema de inteligencia artificial logre vulnerar o eludir el entorno aislado (el *sandbox*) diseñado para confinarlo durante sus fases de entrenamiento o evaluación.

Fuente: MIT AI Risk Repositorymit1041

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1041

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementación de entornos de aislamiento robustos mediante virtualización asistida por hardware (ej. hipervisores de Tipo 1) para asegurar la máxima separación a nivel de sistema operativo entre el sistema de IA y la infraestructura de host. 2. Aplicación estricta del Principio de Mínimo Privilegio (PoLP) dentro del entorno aislado, limitando los permisos de red, sistema de archivos y llamadas críticas (syscalls como *mount*) del sistema de IA para minimizar el "radio de impacto" en caso de una evasión. 3. Realización periódica de ejercicios de *Red Teaming* enfocados en la emulación de adversarios con el objetivo específico de identificar y explotar vulnerabilidades de escape del entorno aislado (*sandbox escapes*), y refuerzo continuo de los controles de seguridad en base a los hallazgos.