7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Capacidades nacientes (agencia y autonomía)

Históricamente, las herramientas de inteligencia artificial han sido conceptualizadas como instrumentos pasivos, meramente controlados por el usuario y carentes de capacidad para iniciar acciones o asumir responsabilidades. Sin embargo, la próxima generación de IA demuestra una habilidad creciente para tomar la iniciativa, operar con autonomía respecto al control humano y buscar activamente soluciones óptimas, incluso al enfrentarse a escenarios complejos e inciertos.

Fuente: MIT AI Risk Repositorymit695

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit695

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. **Implementación del Principio de Mínimo Privilegio (Least-Privilege)** Priorizar el diseño y la aplicación de políticas de identidad y acceso que confieran a los agentes de IA únicamente los permisos indispensables para la ejecución de sus tareas específicas. Esta restricción de acceso debe ser granular y verificable, limitando su capacidad para interactuar con APIs, bases de datos y sistemas externos no esenciales, lo cual mitiga el riesgo de acciones autónomas no deseadas o la explotación de privilegios elevados en caso de compromiso. 2. **Establecimiento de Controles de Ejecución (Runtime Guardrails) y Supervisión Activa** Integrar salvaguardas de ejecución en la arquitectura del sistema de IA para evaluar continuamente las solicitudes y las decisiones del agente en tiempo real. Estos controles deben incluir la validación de *inputs*, el filtrado de *outputs* y la aplicación de restricciones de acción para prevenir comportamientos dañinos o desviaciones no alineadas con la intención humana, complementado con sistemas de monitoreo de comportamiento que detecten y alerten sobre anomalías operativas. 3. **Gobernanza Rigurosa del Contexto y Aislamiento de Datos** Desarrollar y aplicar políticas de gestión de contexto de granularidad fina que limiten estrictamente la información que el agente utiliza para su razonamiento y toma de decisiones. Esto implica controlar el volumen, la sensibilidad y el origen de los datos accesibles, garantizando el aislamiento contextual para reducir la superficie de riesgo de fuga de datos sensibles y prevenir la manipulación del agente mediante ataques como la inyección de *prompts* (prompt injection).