7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Riesgo de autonomía

El otorgamiento de una autonomía decisional elevada a los modelos y sistemas de inteligencia artificial conlleva el riesgo inherente de generar resultados imprevistos o efectos colaterales no deseados

Fuente: MIT AI Risk Repositorymit932

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit932

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar un marco de **Supervisión Humana en el Bucle (HITL)** y Protocolos de Comunicación Agente-a-Humano (A2H). Esto incluye la definición de umbrales de riesgo dinámicos (e.g., scoring $\\gamma$-based) que, al ser excedidos, disparen automáticamente la **escalada de la decisión a un revisor humano** para su aprobación o mitigación, asegurando la atribución de responsabilidad ética y legal. Es esencial además integrar un **Protocolo de Interrupción Inmediata ("Kill Switch")** como salvaguarda última para detener las operaciones en caso de desviación crítica. 2. Establecer **Mecanismos de Control Técnico y Limitación de Privilegios**. Esto requiere la aplicación del **Principio de Mínimo Privilegio** y la microsegmentación de herramientas y datos para restringir las acciones autónomas del agente a funciones estrictamente necesarias, minimizando el radio de impacto de cualquier error. Es imperativo el uso de **Guardarraíles (*Guardrails*)** para imponer límites conductuales estrictos y prevenir acciones de alto riesgo no deseadas. 3. Desarrollar **Sistemas de Trazabilidad y Auditoría Inmutable (Full Reasoning Trace)**. Esto implica capturar y proteger la integridad del rastro completo de razonamiento del agente, incluyendo la secuencia de llamadas a herramientas, la información contextual utilizada (**Grounding**), las puntuaciones de confianza y la ruta de decisión final. Dicha trazabilidad es fundamental para la explicabilidad (*explainability*), la rendición de cuentas y la identificación y corrección de las causas subyacentes de las consecuencias no deseadas.