Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Conflicto

En la gran mayoría de las interacciones estratégicas en el mundo real, los objetivos de los agentes no son ni perfectamente idénticos ni enteramente contrapuestos. Si los sistemas de IA están bien alineados con sus usuarios o entidades de despliegue, es razonable esperar una mezcla de cooperación y competencia, emulando la complejidad de la sociedad humana. Estas configuraciones de "motivación mixta" ofrecen el potencial de beneficios mutuos, pero también conllevan el riesgo de conflicto, a menudo exacerbado por incentivos que premian el autointerés. Posteriormente, examinaremos hasta qué punto la inteligencia artificial avanzada podría precipitar o agravar este tipo de riesgos.

Fuente: MIT AI Risk Repositorymit1085

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1085

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementación de un control de acceso estricto y el principio de mínimo privilegio (*Principio de Least Privilege*) para cada agente, restringiendo su capacidad operativa y el alcance de los recursos a los estrictamente necesarios para su tarea asignada. 2. Desarrollo de arquitecturas de agentes en capas (*Multi-Agent Layered Architecture*) junto con protocolos de comunicación seguros, para aislar el contexto y prevenir la propagación de fallos o la manipulación de información entre agentes coordinados. 3. Adopción de un marco de detección y resolución de conflictos basado en reglas determinísticas (e.g., jerarquías de anulación predefinidas) para gestionar automáticamente interacciones de motivación mixta, complementado con mecanismos de *Human-in-the-Loop* (HITL) para decisiones de alto impacto.