7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Grupos de Agentes-LLM Pueden Mostrar Funcionalidad Emergente

El aprendizaje multiagente, ya sea mediante ajustes explícitos (*finetuning*) o aprendizaje implícito en contexto, permite que los agentes de Modelos de Lenguaje Grande (LLM-agentes) se influyan mutuamente durante sus interacciones. En ciertos entornos, esto genera bucles de retroalimentación que culminan en comportamientos y funcionalidades novedosas y *emergentes*, es decir, que no se manifestarían si los agentes actuaran de forma aislada. La funcionalidad emergente representa un riesgo de seguridad fundamental por dos razones. En primer lugar, la propia capacidad o comportamiento emergente puede ser inherentemente peligroso. En segundo lugar, y quizás más preocupante, esta imprevisibilidad dificulta significativamente los procesos de aseguramiento y mitigación de riesgos, ya que resulta extremadamente complicado predecir o protegerse contra tales conductas antes de que se manifiesten.

Fuente: MIT AI Risk Repositorymit1339

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1339

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar una Arquitectura de Control Jerárquico y Límites de Seguridad (Guardrails) Establecer un agente de orquestación con funciones supervisoras para gestionar la asignación determinista de tareas y la coordinación entre subagentes. Esto debe complementarse con la imposición de restricciones de comportamiento ("hard limits") que delimiten el espacio de acción y eviten la manifestación de funcionalidades peligrosas o descoordinadas. 2. Desarrollar un Programa de Pruebas Continuo y Adversario (Red Teaming) Ejecutar sistemáticamente ejercicios de Red Teaming y Chaos Engineering para explorar el límite entre el comportamiento conocido y el desconocido. Esto incluye secuencias de interacción prolongadas para inducir y evaluar la aparición de comportamientos emergentes negativos, midiendo la resiliencia y la capacidad del sistema para mantener la seguridad bajo condiciones degradadas. 3. Establecer Marcos de Verificación y Monitoreo de Consenso Incorporar mecanismos internos de deliberación y verificación multiagente (como la Defensa de Consenso Colaborativo) donde los agentes se critican o validan mutuamente las afirmaciones antes de la acción final, mejorando la consistencia factual y reduciendo la amplificación de errores. Este sistema debe ser respaldado por una vigilancia continua y métricas de riesgo procesables para rastrear anomalías en la comunicación y el rendimiento colectivo.