Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

La Fundacionalidad Puede Causar Fallos Correlacionados

Una característica crucial en el desarrollo de los Modelos de Lenguaje de Gran Escala (LLM) es lo que se denomina **fundamentalidad** (*foundationality*). Dado el elevado costo del preentrenamiento a gran escala, la mayoría de las instancias de LLM desplegadas comparten componentes de aprendizaje similares o incluso idénticos. Esta fundamentalidad, sin embargo, se presenta como un arma de doble filo. Por un lado, puede ser una **ventaja**, ya que la similitud inherente en el diseño podría ser explotada para fomentar y facilitar la **cooperación** efectiva entre distintos agentes LLM. Por otro lado, supone un **riesgo** en términos de seguridad y robustez: esta dependencia compartida hace que los agentes sean inherentemente vulnerables a **fallos correlacionados**, tanto en sus capacidades como en su seguridad, debido a que se incrementa la **homogeneización de sus resultados**.

Fuente: MIT AI Risk Repositorymit1338

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1338

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar **heterogeneidad y diversificación** en la arquitectura del sistema multi-agente, utilizando diferentes modelos de lenguaje (LLMs) o variaciones en las técnicas de *fine-tuning* y preentrenamiento. Esto mitiga el riesgo de **colapso por monocultivo** al asegurar que una vulnerabilidad compartida no cause una falla correlacionada en todo el colectivo. 2. Aplicar un enfoque de **Defensa en Profundidad (*Defense in Depth*)** y realizar rigurosas **pruebas de *red teaming*** y validación por etapas (*staged testing*) que expongan sistemáticamente a los agentes a entradas adversas. Esto es crucial para **identificar y aislar** las vulnerabilidades latentes o las correlaciones espurias derivadas de la fundamentalidad compartida antes del despliegue. 3. Diseñar la infraestructura con **capas de abstracción** y sistemas de enrutamiento dinámico que permitan el **aislamiento y reemplazo rápido** de agentes individuales. Esta flexibilidad es esencial para **contener la propagación** de un fallo correlacionado, minimizando el impacto de un error en el componente fundacional en la red total.