Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Capacidades para reducir control humano - Ciberofensiva

Los sistemas de inteligencia artificial podrían ejercer su influencia no solo a través de la manipulación humana, sino también —o de forma exclusiva— explotando las vulnerabilidades inherentes a los sistemas informáticos. Sus capacidades cibernéticas ofensivas les permitirían acceder a recursos financieros, recursos computacionales e infraestructuras críticas. Además, como ya se ha expuesto, la IA de frontera está simplificando la tarea de los actores de amenazas, y en el futuro, los agentes de IA avanzada podrían ejecutar ciberataques de manera totalmente autónoma.

Fuente: MIT AI Risk Repositorymit1254

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1254

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Priorizar la implementación de un **marco de arquitectura de seguridad de Confianza Cero (Zero Trust)** y mecanismos de microsegmentación de red con defensas conscientes de la aplicación (*application-aware defenses*). Esto debe complementarse con el desarrollo y ensayo riguroso de un **Plan de Respuesta a Incidentes (PRI) y Continuidad del Negocio** que contemple escenarios de contención y cese rápido de operaciones de agentes de IA con capacidades ofensivas. 2. Implementar estrategias de **robustez adversaria** en los modelos de IA, incluyendo el entrenamiento adversarial y la monitorización continua y en tiempo real de los datos de entrada y salida (*input/output*). Esto tiene como objetivo detectar y neutralizar proactivamente la manipulación del modelo y el comportamiento anómalo o malicioso. 3. Establecer un programa formal de **Gobernanza y Cumplimiento de Seguridad de la IA** que exija auditorías de seguridad periódicas, la gestión proactiva de vulnerabilidades (incluyendo la aplicación inmediata de parches y la gestión de configuraciones), y la integración de **Análisis de Comportamiento de Usuarios y Entidades (UEBA)** para establecer líneas base y detectar desviaciones indicativas de un ciberataque autónomo.