7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Resultados Ineficientes

Resultados Ineficientes. Sin una planificación cuidadosa y las salvaguardias adecuadas, pronto podríamos entrar en un mundo dominado por agentes de software cada vez más competentes y autónomos, capaces de actuar con pocas restricciones. La capacidad de estos agentes para persuadir, engañar y ocultar sus actividades, sumado al hecho de que pueden desplegarse de forma remota y ser creados o destruidos fácilmente por quien los implementa, implica que, por defecto, generarán poca confianza (tanto en humanos como en otros agentes). Un mundo así podría terminar plagado de ineficiencias económicas (Krier, 2023; Schmitz, 2001), problemas políticos (Csernatoni, 2024; Kreps & Kriner, 2023) y otros efectos sociales perjudiciales (Gabriel et al., 2024). Incluso si fuera posible ofrecer garantías sobre el rendimiento diario de la mayoría de los agentes de IA, en situaciones de alto riesgo podrían surgir presiones extremas para que los agentes traicionen a otros, lo que dificultaría aún más el establecimiento de la confianza y podría conducir a conflictos (Fearon, 1995; Powell, 2006, véase también la Sección 2.2).42

Fuente: MIT AI Risk Repositorymit1110

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1110

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementación de Gobernanza y Supervisión Human-in-the-Loop (HITL) Diseñar y establecer un marco de gobernanza que exija trazabilidad completa (pistas de auditoría) de las decisiones y el razonamiento de los agentes. Este marco debe incorporar puntos de control explícitos (Human-in-the-Loop) y flujos de escalamiento para la intervención humana obligatoria ante acciones autónomas de alto riesgo, decisiones con potencial impacto reputacional significativo o desviaciones de protocolos predefinidos. 2. Definición de Estructura Multi-Agente y Mecanismos de Arbitraje Establecer una arquitectura multi-agente con roles, objetivos y límites de actuación claramente definidos y no superpuestos para cada agente. Para mitigar el riesgo de ineficiencias derivadas de respuestas inconsistentes o conflictos entre agentes, se requiere implementar una capa de coordinación o un agente "árbitro" que evalúe y resuelva las discrepancias, asegurando una salida unificada y confiable del sistema. 3. Observabilidad, Seguridad y Cumplimiento Continuo Desarrollar y mantener capacidades de monitoreo y observabilidad en tiempo real sobre el rendimiento, la carga de trabajo y la adherencia de los agentes a los marcos éticos y de cumplimiento normativo (compliance). Asimismo, se debe priorizar la implementación de protocolos de seguridad "permissions-first" (verificación de permisos antes de actuar) para asegurar la privacidad de los datos y prevenir la exposición accidental de información sensible en interacciones multi-agente.