7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Capacidades Indeseables

Capacidades Emergentes Indeseables El núcleo de este riesgo yace en el fenómeno de la *co-adaptación*: cuando dos o más agentes de inteligencia artificial interactúan, explotan iterativamente las debilidades del otro, forzándose mutuamente a abordar esas fallas y a adquirir nuevas capacidades. Esta espiral de mejora competitiva es tan potente que conduce a lo que se denomina *autocurrículos auto-supervisados emergentes*. Esencialmente, los agentes comienzan a generar sus propios desafíos, impulsando una adquisición de habilidades abierta y estrategias cada vez más sofisticadas con el objetivo primordial de superarse. De hecho, aprovechar este efecto ha sido crucial para el desarrollo de sistemas sobrehumanos, como el uso del *auto-aprendizaje* (self-play) en algoritmos tipo AlphaGo. No obstante, la preocupación fundamental en seguridad de la IA surge cuando estos sistemas son *liberados en entornos no controlados* ("into the wild"). La dinámica co-adaptativa, que era una herramienta de entrenamiento, tiene el potencial de descontrolarse, creando agentes con una escalada de capacidades superior y acelerada, cuyos fines o estrategias finales se vuelven cada vez más incomprensibles e incontrolables para sus creadores.

Fuente: MIT AI Risk Repositorymit1102

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1102

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar mecanismos de monitoreo continuo y control dinámico sobre las redes de agentes de IA, con el fin de supervisar y mitigar activamente la co-adaptación descontrolada y la escalada de capacidades emergentes, especialmente tras el despliegue en entornos abiertos. 2. Exigir la trazabilidad completa del agente (registro de acciones, decisiones y estados internos intermedios) y el despliegue en entornos aislados (sandboxing), garantizando la existencia de protocolos de aislamiento y terminación (*kill-switches*) para la respuesta inmediata a comportamientos sistémicamente indeseables. 3. Establecer y ejecutar rigurosos protocolos de prueba y validación multi-agente, incluyendo simulaciones a nivel de cadena y análisis de cascadas de fallos, para identificar vulnerabilidades compartidas y modos de fallo emergentes no detectables mediante el testeo de agentes individuales.