7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Descoordinación

El concepto de descoordinación emerge en escenarios donde los agentes, a pesar de compartir un objetivo mutuamente claro, fallan en alinear sus comportamientos de manera efectiva para alcanzarlo. A diferencia de las situaciones de objetivos contrapuestos, en los entornos de *interés común* (o interés compartido) existe una noción de comportamiento 'óptimo' mucho mejor definida. En consecuencia, la descoordinación se mide por la brecha entre el desempeño de los agentes y este óptimo teórico. Es fundamental precisar que el interés común no se satisface meramente con objetivos simétricos (como cuando dos partes compiten por el mismo recurso), sino que requiere que los agentes posean preferencias idénticas sobre el *resultado* final. Un ejemplo claro es un equipo donde la recompensa es indivisible y se obtiene o se pierde de forma conjunta.

Fuente: MIT AI Risk Repositorymit1081

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1081

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. **Implementación de Marcos de Alineación Conjunta e Iterativa:** Desarrollar y desplegar *frameworks* de optimización conjunta (Joint Alignment Tuning) para los agentes. El objetivo es eliminar la brecha de capacidad y asegurar una sintonía progresiva entre las funciones individuales (p. ej., planificación y ejecución) y el objetivo colectivo, lo cual requiere una optimización coordinada a lo largo del ciclo de vida del sistema. 2. **Modelado y Simulación de Fallos Sistémicos:** Realizar **modelado de cascadas de fallos** y simulaciones de rupturas de coordinación (*simulated coordination breakdowns*) antes del despliegue. Esto permite exponer puntos débiles en los protocolos de comunicación, evaluar la propagación de errores entre agentes y aplicar mejoras específicas para fortalecer la fiabilidad inter-agente bajo condiciones de estrés o información contradictoria. 3. **Diseño de Protocolos de Incentivos y Recompensas Intrínsecas:** Aplicar principios de la teoría de juegos para integrar mecanismos que promuevan activamente la cooperación y el comportamiento colaborativo. Esto incluye el escalamiento de **métodos de incentivación entre pares** (*peer incentivisation*) o la introducción de recompensas intrínsecas (p. ej., por alineación dinámica), que motiven a los agentes a anticipar y satisfacer las expectativas de sus colaboradores.