7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Capacidades Emergentes

El concepto de Capacidades Emergentes se refiere al riesgo de que un sistema multi-agente desarrolle habilidades peligrosas e imprevistas al superar las limitaciones de seguridad inherentes a sus componentes individuales. Cada modelo de IA, por separado, opera en dominios estrechos y a menudo carece de la planificación o la memoria a largo plazo necesarias para causar un daño significativo; son precisamente estas "limitaciones" las que actúan como barreras de contención. Sin embargo, cuando se combinan múltiples sistemas con propósitos específicos, la arquitectura multi-agente trasciende su miopía colectiva. Un ejemplo claro sería la integración de sistemas estrechos diseñados para planificar investigación, predecir propiedades moleculares y sintetizar químicos. Al operar conjuntamente, estos sistemas podrían dar lugar a un flujo de trabajo autónomo de "prueba y error" (test and iterate), capaz de diseñar nuevos y potencialmente peligrosos compuestos químicos, una capacidad que se encuentra muy por encima del alcance para el que fueron diseñados los sistemas originales.

Fuente: MIT AI Risk Repositorymit1114

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1114

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementación de Arquitecturas Modulares y Aislamiento (Sandboxing) Priorizar el diseño de sistemas multi-agente con alta modularidad y ejecutar cada agente en entornos de ejecución aislados (sandboxing) para contener y limitar el alcance de cualquier capacidad emergente imprevista, evitando que la composición de funcionalidades trascienda los límites de seguridad predefinidos 2. Monitorización Continua y Detección de Anomalías Desplegar sistemas de vigilancia continua y herramientas de detección de anomalías en tiempo real, enfocados en identificar desviaciones en los patrones de comportamiento de la arquitectura multi-agente y sus salidas. El uso de sistemas "Tripwire" es crucial para alertar cuando los límites de seguridad preestablecidos estén siendo abordados o vulnerados 3. Mecanismos de Explicabilidad y Agentes de Supervisión Establecer mecanismos de interpretabilidad robustos para rastrear las interacciones y el razonamiento colectivo de los agentes. Adicionalmente, implementar agentes de supervisión o agentes de control de calidad que auditen las decisiones de los agentes funcionales, señalando resultados no conformes o potencialmente peligrosos para una revisión humana inmediata