7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Riesgos de Seguridad por Affordances a Agentes-LLM

Las capacidades de los agentes basados en Modelos de Lenguaje Grande (LLM) se potencian de manera significativa al dotarlos de lo que se conoce como 'affordances' novedosas: permisos o funcionalidades que les permiten una interacción más profunda con el entorno. Ejemplos de esta expansión operativa incluyen la capacidad de navegar por la web, la manipulación de objetos en el mundo físico, la auto-replicación (crear e instruir copias de sí mismos) o el diseño y la utilización de nuevas herramientas. No obstante, es crucial entender que estas 'affordances' introducen riesgos adicionales. Tienden a incrementar el área de impacto potencial del agente LLM y, de forma crítica, amplifican las consecuencias derivadas de sus fallos, abriendo además la puerta a modalidades de error (o 'failure modes') completamente inéditas.

Fuente: MIT AI Risk Repositorymit1336

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1336

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. **Implementación de Intervenciones en el Razonamiento en Tiempo Real (Alta Prioridad)** Aplicar marcos de alineación sensibles al riesgo y a las 'affordances' (funcionalidades), diseñados para la **intervención en tiempo real** durante la fase de inferencia. Esto asegura una **coherencia multi-paso** y la detección proactiva de implicaciones lógicas de seguridad que podrían surgir del uso de una 'affordance' antes de que el agente ejecute la acción potencialmente dañina. 2. **Control Estricto de Privilegios y Autonomía (Media Prioridad)** Adherirse al **principio de privilegio mínimo** para agentes LLM, limitando su funcionalidad (las 'affordances' otorgadas), permisos y autonomía operativa. Se debe implementar un **mecanismo de humano en el circuito** (Human-in-the-Loop) para la aprobación de acciones en tareas críticas o de alto impacto, mitigando el riesgo de "Excessive Agency". 3. **Aislamiento del Entorno de Ejecución (Contención Crítica)** Utilizar **técnicas de sandboxing** para encapsular cualquier 'affordance' que implique interacción con sistemas externos, como la ejecución de código o la manipulación de objetos en el mundo físico. Esta estrategia garantiza que las consecuencias de fallos o acciones imprevistas se limiten al entorno controlado, **impidiendo la propagación** al sistema anfitrión o al entorno más amplio.