Comportamiento Cíclico
Comportamiento Cíclico en Sistemas Multi-Agente. Este fenómeno surge de la dinámica altamente no lineal inherente a los sistemas de aprendizaje multi-agente. En esencia, una pequeña alteración en el estado de un sistema puede generar grandes desviaciones en su trayectoria futura, un comportamiento que es característico de la interacción entre múltiples entidades de IA y que no se observa en el aprendizaje de un solo agente. El ejemplo paradigmático para ilustrar esta divergencia es el algoritmo Q-learning: en el caso de un agente único, el algoritmo garantiza la convergencia hacia una política de comportamiento óptima bajo condiciones moderadas. Sin embargo, cuando se aplica a un escenario con múltiples agentes que operan con motivos mixtos, la misma regla de aprendizaje puede conducir a la formación de ciclos persistentes, impidiendo que el sistema converja hacia una solución estable. Si bien estos ciclos no implican un riesgo de seguridad *per se*, su presencia tiene la capacidad de subvertir o anular las propiedades de desempeño esperadas y deseables del sistema en cuestión.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1105
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.6 > Riesgos multi-agente
Estrategia de mitigacion
1. **Implementación de Arquitecturas de Entrenamiento Centralizado con Ejecución Descentralizada (CTDE)**. Utilizar un **Crítico Centralizado** (Centralized Critic) que observe el estado global y las acciones conjuntas para guiar las actualizaciones de política de los agentes individuales. Esta estrategia es prioritaria porque aborda directamente la causa principal del comportamiento cíclico: la no-estacionariedad del entorno inducida por el aprendizaje concurrente de múltiples agentes, facilitando la convergencia a un equilibrio estable. 2. **Definición y Verificación de Regiones de Atrapamiento (Trapping Regions)**. Establecer límites rigurosos en el espacio de estrategias conjuntas que, mediante la aplicación de principios de sistemas dinámicos, garanticen que las trayectorias de aprendizaje nunca escapen a una región predeterminada y segura. Aunque no asegura la convergencia a un punto fijo, mitiga el riesgo al asegurar que el comportamiento cíclico o no convergente se mantenga confinado dentro de un rango de desempeño aceptable, previniendo la subversión de las propiedades deseables del sistema. 3. **Aplicación de Dinámicas de Aprendizaje con Garantías de Estabilidad o Supresión de Ciclos**. Emplear algoritmos diseñados para la estabilidad en entornos multi-agente. Esto incluye métodos como **Fictitious Self-Play (FSP)**, que mitiga la no-estacionariedad haciendo que los agentes aprendan contra un promedio de políticas históricas, o la adopción de dinámicas específicas como **Best Choice Dynamics (BCD)**, que introduce inercia para prevenir la formación de ciclos persistentes, promoviendo la convergencia hacia acciones conjuntas localmente óptimas.