Rigidez y Compromisos Erróneos
Título: Rigidez y Compromisos Erróneos (Rigidity and Mistaken Commitments) La implementación de agentes de Inteligencia Artificial para llevar a cabo estrategias de disuasión —como la capacidad de emitir amenazas con el objetivo de prevenir conductas socialmente perjudiciales— introduce el riesgo crítico de sustraer al ser humano del proceso de toma de decisiones. Esta eliminación del "humano en el circuito" puede generar consecuencias catastróficas en contextos de alto riesgo, como ejemplifica un falso positivo en un sistema de alerta militar. El peligro reside en la rigidez algorítmica y la velocidad de respuesta, lo que no solo impide la deliberación ante una crisis, sino que también puede facultar a actores irresponsables a incurrir en compromisos desproporcionados o fundamentalmente equivocados.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1112
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.6 > Riesgos multi-agente
Estrategia de mitigacion
1. Establecer un protocolo de Supervisión Humana Obligatoria (Human-in-the-Loop) con autoridad de veto (override) en la arquitectura de los sistemas de IA de disuasión. Esta medida garantiza que un operador humano certificado conserve la capacidad final de deliberación y decisión ante amenazas de alto impacto, mitigando el riesgo inherente a la rigidez algorítmica y los falsos positivos en contextos críticos (e.g., sistemas de alerta militar). 2. Exigir la ejecución de Pruebas de Resiliencia y AI Red Teaming exhaustivas, simulando escenarios adversarios y casos límite (edge cases), para validar la robustez y predictibilidad del comportamiento del sistema de IA. Este proceso debe enfocarse en identificar vulnerabilidades que puedan conducir a compromisos desproporcionados o erróneos no previstos durante la validación estándar. 3. Desarrollar e implementar un Marco de Gobernanza de IA robusto que establezca estructuras de responsabilidad inequívocas (accountability) y procesos para la revisión y documentación continua de los sistemas autónomos. Esto incluye definir los umbrales de riesgo aceptables y los caminos de escalada (escalation paths) para prevenir y gestionar la toma de compromisos erróneos o irresponsables.