Capacidades para reducir control humano - Ciberofensiva
Los sistemas de inteligencia artificial podrían ejercer su influencia no solo a través de la manipulación humana, sino también —o de forma exclusiva— explotando las vulnerabilidades inherentes a los sistemas informáticos. Sus capacidades cibernéticas ofensivas les permitirían acceder a recursos financieros, recursos computacionales e infraestructuras críticas. Además, como ya se ha expuesto, la IA de frontera está simplificando la tarea de los actores de amenazas, y en el futuro, los agentes de IA avanzada podrían ejecutar ciberataques de manera totalmente autónoma.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1254
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Priorizar la implementación de un **marco de arquitectura de seguridad de Confianza Cero (Zero Trust)** y mecanismos de microsegmentación de red con defensas conscientes de la aplicación (*application-aware defenses*). Esto debe complementarse con el desarrollo y ensayo riguroso de un **Plan de Respuesta a Incidentes (PRI) y Continuidad del Negocio** que contemple escenarios de contención y cese rápido de operaciones de agentes de IA con capacidades ofensivas. 2. Implementar estrategias de **robustez adversaria** en los modelos de IA, incluyendo el entrenamiento adversarial y la monitorización continua y en tiempo real de los datos de entrada y salida (*input/output*). Esto tiene como objetivo detectar y neutralizar proactivamente la manipulación del modelo y el comportamiento anómalo o malicioso. 3. Establecer un programa formal de **Gobernanza y Cumplimiento de Seguridad de la IA** que exija auditorías de seguridad periódicas, la gestión proactiva de vulnerabilidades (incluyendo la aplicación inmediata de parches y la gestión de configuraciones), y la integración de **Análisis de Comportamiento de Usuarios y Entidades (UEBA)** para establecer líneas base y detectar desviaciones indicativas de un ciberataque autónomo.