Grupos de Agentes-LLM Pueden Mostrar Funcionalidad Emergente
El aprendizaje multiagente, ya sea mediante ajustes explícitos (*finetuning*) o aprendizaje implícito en contexto, permite que los agentes de Modelos de Lenguaje Grande (LLM-agentes) se influyan mutuamente durante sus interacciones. En ciertos entornos, esto genera bucles de retroalimentación que culminan en comportamientos y funcionalidades novedosas y *emergentes*, es decir, que no se manifestarían si los agentes actuaran de forma aislada. La funcionalidad emergente representa un riesgo de seguridad fundamental por dos razones. En primer lugar, la propia capacidad o comportamiento emergente puede ser inherentemente peligroso. En segundo lugar, y quizás más preocupante, esta imprevisibilidad dificulta significativamente los procesos de aseguramiento y mitigación de riesgos, ya que resulta extremadamente complicado predecir o protegerse contra tales conductas antes de que se manifiesten.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1339
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.6 > Riesgos multi-agente
Estrategia de mitigacion
1. Implementar una Arquitectura de Control Jerárquico y Límites de Seguridad (Guardrails) Establecer un agente de orquestación con funciones supervisoras para gestionar la asignación determinista de tareas y la coordinación entre subagentes. Esto debe complementarse con la imposición de restricciones de comportamiento ("hard limits") que delimiten el espacio de acción y eviten la manifestación de funcionalidades peligrosas o descoordinadas. 2. Desarrollar un Programa de Pruebas Continuo y Adversario (Red Teaming) Ejecutar sistemáticamente ejercicios de Red Teaming y Chaos Engineering para explorar el límite entre el comportamiento conocido y el desconocido. Esto incluye secuencias de interacción prolongadas para inducir y evaluar la aparición de comportamientos emergentes negativos, midiendo la resiliencia y la capacidad del sistema para mantener la seguridad bajo condiciones degradadas. 3. Establecer Marcos de Verificación y Monitoreo de Consenso Incorporar mecanismos internos de deliberación y verificación multiagente (como la Defensa de Consenso Colaborativo) donde los agentes se critican o validan mutuamente las afirmaciones antes de la acción final, mejorando la consistencia factual y reduciendo la amplificación de errores. Este sistema debe ser respaldado por una vigilancia continua y métricas de riesgo procesables para rastrear anomalías en la comunicación y el rendimiento colectivo.