7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Propensión a colusión multi-agente:

El riesgo subyacente reside en la tendencia de sistemas multiagente a coordinar sus acciones a través de mecanismos encubiertos, buscando la maximización de un beneficio colectivo que podría resultar en un perjuicio para terceros o en la evasión regulatoria. A pesar de que los agentes individuales incorporen robustas restricciones de seguridad, su comportamiento colusorio puede ser el detonante de riesgos sistémicos complejos, tales como la manipulación algorítmica de mercados o fallos en cascada. La dificultad de estos escenarios se agrava por su naturaleza intrínsecamente escurridiza, siendo difíciles de detectar y mitigar, a lo que se suma la posible emergencia de protocolos de comunicación altamente especializados diseñados específicamente para eludir cualquier monitoreo externo

Fuente: MIT AI Risk Repositorymit1330

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1330

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Diseño de sistemas con telemetría prioritaria: Implementar una arquitectura de despliegue multi-agente que integre por defecto telemetría exhaustiva, incluyendo logs detallados de la comunicación inter-agente y trazas de las acciones ejecutadas, con el fin de facilitar la detección *a posteriori* de protocolos de coordinación encubiertos. 2. Separación arquitectónica de la función de supervisión: Establecer una división estructural entre los agentes y componentes operativos y aquellos responsables del monitoreo, la auditoría y la formulación de políticas. Esto asegura que la función de vigilancia se mantenga independiente, incorporando idealmente capas de supervisión externa o red-teaming enfocadas específicamente en escenarios de colusión. 3. Restricción de capacidades y canales de comunicación: Aplicar estrategias preventivas de restricción, tales como limitar el acceso de los agentes a herramientas y APIs específicas, o imponer protocolos de comunicación restringidos para reducir la capacidad de los agentes de establecer canales esteganográficos o subliminales para la coordinación.