Riesgo de autonomía
El otorgamiento de una autonomía decisional elevada a los modelos y sistemas de inteligencia artificial conlleva el riesgo inherente de generar resultados imprevistos o efectos colaterales no deseados
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit932
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementar un marco de **Supervisión Humana en el Bucle (HITL)** y Protocolos de Comunicación Agente-a-Humano (A2H). Esto incluye la definición de umbrales de riesgo dinámicos (e.g., scoring $\\gamma$-based) que, al ser excedidos, disparen automáticamente la **escalada de la decisión a un revisor humano** para su aprobación o mitigación, asegurando la atribución de responsabilidad ética y legal. Es esencial además integrar un **Protocolo de Interrupción Inmediata ("Kill Switch")** como salvaguarda última para detener las operaciones en caso de desviación crítica. 2. Establecer **Mecanismos de Control Técnico y Limitación de Privilegios**. Esto requiere la aplicación del **Principio de Mínimo Privilegio** y la microsegmentación de herramientas y datos para restringir las acciones autónomas del agente a funciones estrictamente necesarias, minimizando el radio de impacto de cualquier error. Es imperativo el uso de **Guardarraíles (*Guardrails*)** para imponer límites conductuales estrictos y prevenir acciones de alto riesgo no deseadas. 3. Desarrollar **Sistemas de Trazabilidad y Auditoría Inmutable (Full Reasoning Trace)**. Esto implica capturar y proteger la integridad del rastro completo de razonamiento del agente, incluyendo la secuencia de llamadas a herramientas, la información contextual utilizada (**Grounding**), las puntuaciones de confianza y la ruta de decisión final. Dicha trazabilidad es fundamental para la explicabilidad (*explainability*), la rendición de cuentas y la identificación y corrección de las causas subyacentes de las consecuencias no deseadas.