Seguridad Multi-Agente no garantizada por Agente Único
Una lección fundamental de la teoría de juegos es que la toma de decisiones que resulta óptima en un entorno de agente único —es decir, la optimización puramente egoísta de la utilidad individual— puede generar resultados subóptimos cuando interactúa con otros agentes estratégicos. Cuando un agente ignora la naturaleza estratégica de los demás, corre el riesgo de adoptar tácticas que resulten en un perjuicio generalizado, incluso para sí mismo. Clásicos de este fenómeno incluyen los problemas de acción colectiva, o ‘dilemas sociales’, ejemplificados por las carreras armamentísticas o el agotamiento de recursos comunes (la ‘tragedia de los comunes’). Este principio se extiende a otros fallos de mercado, como los derivados de la información asimétrica o la existencia de externalidades negativas.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit1337
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.6 > Riesgos multi-agente
Estrategia de mitigacion
1. Priorizar el diseño de sistemas con coordinación y asignación de tareas explícitas. Esto incluye la implementación de la **descomposición jerárquica de objetivos** y la **asignación determinista de tareas** mediante protocolos descentralizados, como el Protocolo de Votación Local, para mitigar la miscoordinación, reducir el despilfarro computacional y evitar fallos en cascada causados por la ambigüedad de roles. 2. Desarrollar e implementar **protocolos seguros para interacciones confiables entre agentes** y establecer mecanismos de supervisión. Esto implica dotar a los agentes de reglas para la anulación o la búsqueda de **aprobación humana** para decisiones de alto riesgo, así como desplegar **agentes de salvaguardia** dedicados a monitorear y prevenir comportamientos potencialmente dañinos o collusivos. 3. Extender la investigación y las estrategias de seguridad de la IA para abordar los riesgos estratégicos. Se requiere el desarrollo de **defensas activas** (ej. rechazar instrucciones maliciosas y actuar contra su propagación) y la escalada de **métodos de incentivación entre pares** a modelos avanzados para desalentar la colusión emergente y las dinámicas desestabilizadoras que favorecen resultados no deseables.