7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Agentes de IA Vulnerables

Agentes de IA Vulnerables. El despliegue de sistemas de inteligencia artificial como delegados o representantes de entidades humanas u organizaciones introduce, inevitablemente, un nuevo vector de riesgo: la posibilidad de que los propios agentes sean atacados. Desde una perspectiva de ciberseguridad, estos agentes deben considerarse como extensiones vulnerables de sus "principales", lo que genera una inédita superficie de ataque. Los ataques dirigidos contra un agente de IA tienen un doble propósito: bien extraer información sensible o privada de la entidad que representa, bien manipular al agente para que ejecute tareas o decisiones que resulten perjudiciales o indeseables para su principal. En el ámbito de la seguridad y alineamiento de la IA, esto es especialmente crítico e incluye asaltos a los agentes supervisores (aquellos cuya función es monitorizar y asegurar el comportamiento ético del sistema), maniobras para frustrar la cooperación efectiva entre agentes, y la filtración de datos que podría ser utilizada, deliberada o accidentalmente, para propiciar la colusión entre sistemas.

Fuente: MIT AI Risk Repositorymit1120

ENTIDAD

3 - Otro

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1120

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementación de Protección en Tiempo de Ejecución (Runtime Governance) Establecer una capa de mediación que intercepte y valide proactivamente todas las acciones, entradas y salidas de los agentes de IA antes de su ejecución. Esta supervisión en tiempo real debe garantizar el cumplimiento de las políticas de seguridad, las reglas de negocio y los límites de comportamiento predefinidos (Trust as Code), separando la fase de planificación de la ejecución. 2. Adopción de Arquitectura de Confianza Cero y Mínimo Privilegio Diseñar la arquitectura de los sistemas multi-agente bajo el principio de Confianza Cero, asignando identidades y propietarios a cada agente y estableciendo políticas de acceso granular (mínimo privilegio). Esto restringe el acceso de los agentes a los recursos y herramientas estrictamente necesarios, mitigando el potencial de acciones no autorizadas y limitando la superficie de ataque en caso de compromiso. 3. Pruebas Adversarias Rigurosas y Monitoreo Continuo Ejecutar simulaciones periódicas de escenarios adversarios, incluyendo ataques de inyección de *prompt* y manipulación de agentes, para evaluar la robustez del sistema y la resistencia a la desalineación. Complementariamente, implementar capacidades de monitoreo y auditoría exhaustivas para rastrear el comportamiento, el estado y los patrones de acceso de los agentes, identificando anomalías o micro-señales de comportamiento incorrecto o emergente.