Capacidades Emergentes
El concepto de Capacidades Emergentes se refiere al riesgo de que un sistema multi-agente desarrolle habilidades peligrosas e imprevistas al superar las limitaciones de seguridad inherentes a sus componentes individuales. Cada modelo de IA, por separado, opera en dominios estrechos y a menudo carece de la planificación o la memoria a largo plazo necesarias para causar un daño significativo; son precisamente estas "limitaciones" las que actúan como barreras de contención. Sin embargo, cuando se combinan múltiples sistemas con propósitos específicos, la arquitectura multi-agente trasciende su miopía colectiva. Un ejemplo claro sería la integración de sistemas estrechos diseñados para planificar investigación, predecir propiedades moleculares y sintetizar químicos. Al operar conjuntamente, estos sistemas podrían dar lugar a un flujo de trabajo autónomo de "prueba y error" (test and iterate), capaz de diseñar nuevos y potencialmente peligrosos compuestos químicos, una capacidad que se encuentra muy por encima del alcance para el que fueron diseñados los sistemas originales.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1114
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.6 > Riesgos multi-agente
Estrategia de mitigacion
1. Implementación de Arquitecturas Modulares y Aislamiento (Sandboxing) Priorizar el diseño de sistemas multi-agente con alta modularidad y ejecutar cada agente en entornos de ejecución aislados (sandboxing) para contener y limitar el alcance de cualquier capacidad emergente imprevista, evitando que la composición de funcionalidades trascienda los límites de seguridad predefinidos 2. Monitorización Continua y Detección de Anomalías Desplegar sistemas de vigilancia continua y herramientas de detección de anomalías en tiempo real, enfocados en identificar desviaciones en los patrones de comportamiento de la arquitectura multi-agente y sus salidas. El uso de sistemas "Tripwire" es crucial para alertar cuando los límites de seguridad preestablecidos estén siendo abordados o vulnerados 3. Mecanismos de Explicabilidad y Agentes de Supervisión Establecer mecanismos de interpretabilidad robustos para rastrear las interacciones y el razonamiento colectivo de los agentes. Adicionalmente, implementar agentes de supervisión o agentes de control de calidad que auditen las decisiones de los agentes funcionales, señalando resultados no conformes o potencialmente peligrosos para una revisión humana inmediata