7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Estrategias incompatibles

Incompatibilidad Estratégica. Este riesgo surge de la descoordinación inherente, incluso cuando todos los agentes de inteligencia artificial poseen capacidades óptimas de forma aislada. El problema radica en la selección de estrategias mutuamente incompatibles. Mientras que los entornos competitivos (juegos de suma cero) permiten a los diseñadores crear agentes robustos con garantías de pago en el equilibrio (un resultado que se mantiene incluso si el oponente se desvía, según la noción de Nash de 1951), los entornos de interés común o de motivación mixta son mucho más complejos. En estos últimos, a menudo existe un vasto conjunto de soluciones que, si bien son individualmente óptimas, son imposibles de conciliar entre sí (Schelling, 1980). Este desafío de coordinación se exacerba notablemente en contextos parcialmente observables, donde los agentes carecen de información completa para inferir las intenciones o los planes de sus compañeros.

Fuente: MIT AI Risk Repositorymit1082

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1082

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Fomentar la Convergencia Estratégica mediante el Diseño de Incentivos. Desarrollar e implementar arquitecturas de incentivos (como la incentivación entre pares a escala) que garanticen que la optimización individual de la utilidad de cada agente conduzca intrínsecamente a la selección de estrategias mutuamente compatibles y al máximo beneficio colectivo en sistemas de interés común y motivación mixta. 2. Aumentar la Observabilidad y la Capacidad de Modelado de Agentes. Implementar protocolos de intercambio de información y mecanismos de inferencia avanzados (Teoría de la Mente) que permitan a los agentes acceder o modelar con precisión los objetivos, capacidades y planes estratégicos en curso de los demás. Esto mitiga la incertidumbre inherente a los entornos parcialmente observables y facilita la coordinación. 3. Validación Estratégica Rigurosa en Simulación. Establecer un marco de evaluación sistemático pre-despliegue (p. ej., pruebas por etapas, simulaciones de alta fidelidad y Red Teaming) con el objetivo específico de identificar y cuantificar la probabilidad de que los agentes converjan en puntos de equilibrio estratégicamente incompatibles antes de su operación en el mundo real.