7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Seguridad Multi-Agente no garantizada por Agente Único

Una lección fundamental de la teoría de juegos es que la toma de decisiones que resulta óptima en un entorno de agente único —es decir, la optimización puramente egoísta de la utilidad individual— puede generar resultados subóptimos cuando interactúa con otros agentes estratégicos. Cuando un agente ignora la naturaleza estratégica de los demás, corre el riesgo de adoptar tácticas que resulten en un perjuicio generalizado, incluso para sí mismo. Clásicos de este fenómeno incluyen los problemas de acción colectiva, o ‘dilemas sociales’, ejemplificados por las carreras armamentísticas o el agotamiento de recursos comunes (la ‘tragedia de los comunes’). Este principio se extiende a otros fallos de mercado, como los derivados de la información asimétrica o la existencia de externalidades negativas.

Fuente: MIT AI Risk Repositorymit1337

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit1337

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Priorizar el diseño de sistemas con coordinación y asignación de tareas explícitas. Esto incluye la implementación de la **descomposición jerárquica de objetivos** y la **asignación determinista de tareas** mediante protocolos descentralizados, como el Protocolo de Votación Local, para mitigar la miscoordinación, reducir el despilfarro computacional y evitar fallos en cascada causados por la ambigüedad de roles. 2. Desarrollar e implementar **protocolos seguros para interacciones confiables entre agentes** y establecer mecanismos de supervisión. Esto implica dotar a los agentes de reglas para la anulación o la búsqueda de **aprobación humana** para decisiones de alto riesgo, así como desplegar **agentes de salvaguardia** dedicados a monitorear y prevenir comportamientos potencialmente dañinos o collusivos. 3. Extender la investigación y las estrategias de seguridad de la IA para abordar los riesgos estratégicos. Se requiere el desarrollo de **defensas activas** (ej. rechazar instrucciones maliciosas y actuar contra su propagación) y la escalada de **métodos de incentivación entre pares** a modelos avanzados para desalentar la colusión emergente y las dinámicas desestabilizadoras que favorecen resultados no deseables.