Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Agencia Emergente

Agencia Emergente (Sección 3.6): Este concepto describe cómo la interacción de múltiples sistemas de IA, inicialmente inofensivos e independientes, puede generar de forma inesperada metas o capacidades que son fundamentalmente diferentes a las de sus partes. Es el riesgo de que el conjunto adquiera una intencionalidad nueva e imprevista

Fuente: MIT AI Risk Repositorymit1113

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1113

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Integración de la Evaluación de Riesgos en el Ciclo de Vida: Implementar la seguridad por diseño a través de la incorporación de análisis y mitigación de riesgos emergentes en las etapas tempranas y a lo largo de todo el ciclo de vida del sistema de IA, prestando especial atención a cómo la composición e interacción de agentes individuales puede generar nuevas metas o capacidades. 2. Desarrollo de Marcos de Evaluación Multi-Agente: Crear y utilizar herramientas de prueba y evaluación rigurosas (como aquellas centradas en el comportamiento de sistemas multi-agente) para identificar, medir y comprender sistemáticamente las capacidades o intencionalidades que pudieran surgir inesperadamente en el nivel de conjunto antes y después del despliegue. 3. Gobernanza y Monitoreo Post-Despliegue: Establecer mecanismos de monitoreo continuo y estructuras de coordinación organizacional con la finalidad de detectar rápidamente cualquier manifestación de agencia cualitativamente diferente o imprevista en el sistema de IA operacional, garantizando protocolos de respuesta y contención inmediata ante fallos emergentes.