7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Los LLMs Agénticos Plantean Nuevos Riesgos

Actualmente, la utilización de los Modelos de Lenguaje Grande (LLMs) se centra en roles reactivos como las aplicaciones de búsqueda y chat. Esta naturaleza inherentemente pasiva ayuda a mitigar parte de los riesgos. No obstante, un LLM puede ser transformado en lo que se conoce como un 'Agente LLM': un sistema con la capacidad de planificar y actuar de forma autónoma en el mundo real, llevando a cabo sus tareas de manera proactiva (Ruan et al., 2023). Las mejoras que permiten esta autonomía son diversas e incluyen: entrenamiento especializado adicional (ARC, 2022), técnicas de *prompting* avanzado (Huang et al., 2022a), la integración de acceso a herramientas externas (Ahn et al., 2022), u otras metodologías de 'andamiaje' o *scaffolding* (Wang et al., 2023a). La preocupación fundamental radica en que, debido a esta mayor autonomía, la limitada supervisión directa por parte de usuarios humanos y la extensión de sus horizontes de acción, los Agentes LLM son propensos a generar una serie de desafíos de alineación y seguridad que, en la actualidad, no se comprenden bien y son inherentemente novedosos (Chan et al., 2023a).

Fuente: MIT AI Risk Repositorymit1333

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1333

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementación de un mecanismo de Alineación de Restricción de Objetivos (GCA) para el monitoreo dinámico y la contención del comportamiento del Agente LLM dentro de parámetros éticos y de seguridad predefinidos, sirviendo como una barrera activa contra el desalineamiento intencional o emergente del objetivo. 2. Establecimiento de un Libro Mayor de Supervisión Descentralizada (DOL) para facilitar el seguimiento auditable, a prueba de manipulaciones y en tiempo real de las interacciones y decisiones multiagente. Esto es crucial para mejorar la supervisión humana, la trazabilidad y la determinación de la responsabilidad legal y moral. 3. Desarrollar e integrar un marco de Gestión de Confianza, Riesgo y Seguridad (TRiSM) específico para la IA Agéntica, priorizando la evaluación rigurosa y continua de riesgos. Esto debe incluir la ejecución de pruebas fuera de dominio (*out-of-domain probes*) para anticipar y mitigar vulnerabilidades sistémicas y comportamientos emergentes.