7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Dinámicas Desestabilizadoras

Dinámicas Desestabilizadoras (Sección 3.4): Se manifiestan cuando múltiples sistemas exhiben una adaptación recíproca. Esta respuesta continua de un sistema al otro puede iniciar bucles de retroalimentación peligrosos, lo que a su vez amplifica los efectos y genera una alta impredecibilidad en el comportamiento del sistema agregado.

Fuente: MIT AI Risk Repositorymit1103

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1103

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar protocolos de interacción robustos y **agentes de salvaguarda** (safeguard agents) diseñados para monitorizar continuamente las interacciones entre sistemas, **detectar la formación de bucles de retroalimentación peligrosos** y ajustar de manera dinámica las variables de control o los incentivos para garantizar la estabilidad del sistema agregado. 2. Realizar **ejercicios de Red Teaming y de Ingeniería del Caos** de forma rigurosa para someter al Sistema Multi-Agente (SMA) a condiciones operativas adversas o degradadas, con el fin de identificar y analizar la aparición de comportamientos emergentes e impredecibles antes y durante el despliegue. 3. Establecer un marco de **supervisión humana continua** que incluya **reglas claras para la anulación o intervención**, designando a un **árbitro humano final** para la aprobación de las decisiones consideradas de alto riesgo, asegurando que las dinámicas adaptativas de los sistemas no excedan los límites de seguridad predefinidos.