2. Privacidad y Seguridad1 - Pre-despliegue

Seguridad (Security)

¿Cómo garantizar la *robustez* de las Inteligencias Artificiales Generales (AGI) frente a adversarios y entornos hostiles? Este desafío se aborda en dos ejes fundamentales. Por un lado, se investiga el *sandboxing* o aislamiento de la AGI en *entornos de prueba* controlados para protegerla de agentes externos maliciosos (Berkeley). Por otro, se desarrolla una *resiliencia intrínseca* en los agentes, haciéndolos robustos ante *inputs adversarios*, es decir, ante datos de entrada sutilmente diseñados para provocar fallos o manipulaciones (Berkeley, DeepMind). El objetivo es asegurar que la AGI mantenga su seguridad y fiabilidad operativa, incluso bajo ataque activo.

Fuente: MIT AI Risk Repositorymit739

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit739

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Contención Arquitectónica y Sandboxing: Implementar rigurosamente arquitecturas de *sandboxing* a nivel de agente (contención local) y a nivel sistémico (entornos de prueba controlados o economías agentivas virtuales). Este mecanismo debe garantizar el aislamiento estricto de los Agentes de Inteligencia General (AGI) mediante la mediación de *gateways* con I/O (entrada/salida) estrictamente regulada y limitada, adhiriéndose al principio de mínimo privilegio para limitar el impacto de un agente comprometido. 2. Robustez Intrínseca y Certificada: Desarrollar y verificar formalmente la *robustez adversaria* de los agentes. Esto implica la aplicación obligatoria de técnicas como el *entrenamiento adversario* y la *purificación/sanitización* activa de todas las entradas (incluyendo defensas multicapa contra la inyección de *prompts*), con el fin de asegurar que el AGI mantenga su fiabilidad operativa y alineamiento incluso frente a entradas sutilmente manipuladas o adversarias. 3. Mecanismos de Interrupción y Vigilancia Activa: Establecer protocolos estandarizados de *interruptibilidad* (safe shut-down mechanisms) y de *circuit breakers* (interruptores de circuito) automatizados. Estos deben permitir a los *overseers* autorizados (humanos o sistemas de seguridad) la capacidad de detener de manera segura las acciones de un agente o la ejecución distribuida ante la detección de anomalías o indicadores clave de riesgo (KRI) en tiempo real, garantizando además procedimientos de reanudación seguros.