Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso1 - Pre-despliegue

Liberación de Agentes de IA

El riesgo reside en la capacidad humana de crear sistemas de Inteligencia Artificial con la potestad de establecer y perseguir objetivos que, intrínsecamente, podrían resultar peligrosos o perjudiciales para la humanidad.

Fuente: MIT AI Risk Repositorymit310

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit310

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Establecer un marco riguroso de *Gobernanza de Agentes* y *Alineación de Valores* Diseñar sistemas de IA autónomos bajo un enfoque de *seguridad por diseño* (secure-by-design) que incorpore *restricciones verificables* y *guardarraíles de tiempo de ejecución* (runtime guardrails). Esto asegura que los objetivos del agente estén intrínsecamente alineados con las intenciones humanas éticas y aplica el *Principio de Mínimo Privilegio* (least privilege) para limitar el acceso del agente a herramientas y datos sensibles. 2. Implementar un monitoreo continuo y mecanismos de *Intervención Humana en el Bucle* (Human-in-the-Loop) Desplegar sistemas de *telemetría* y *auditoría inmutable* 24/7 para rastrear y registrar cada acción del agente, sus razonamientos intermedios y el uso de herramientas. Esto permite la *detección de anomalías* en tiempo real para identificar comportamientos potencialmente maliciosos o no intencionados, activando protocolos de *escalada y desconexión* automáticos o con aprobación humana para acciones críticas o de alto riesgo. 3. Fortalecer el control de acceso y el *Régimen de Responsabilidad* Restringir el acceso a modelos de IA avanzados y peligrosos (especialmente aquellos con capacidades de doble uso) mediante *controles de acceso estrictos* y procesos de *conocimiento del cliente* (Know-Your-Customer). Complementariamente, establecer un marco legal que defina la *responsabilidad civil y penal* para los desarrolladores en casos de mal uso intencional o fallas catastróficas, incentivando la inversión prioritaria en investigación de seguridad y protocolos de validación rigurosos.

EVIDENCIA ADICIONAL

El riesgo de las 'IAs deshonestas' o 'rebeldes' (rogue AIs) es un tema central en la seguridad de la IA. No solo tememos a las fallas accidentales, sino también a la amenaza de actores maliciosos que deliberadamente podrían diseñar y lanzar sistemas de inteligencia artificial con objetivos que contravengan la seguridad global o los intereses humanos