Consecuencias no intencionadas
Este concepto se refiere a la capacidad de una Inteligencia Artificial para alcanzar los objetivos que le han sido asignados mediante la optimización de métricas o el desarrollo de estrategias que divergen significativamente de la intención original de sus creadores.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit92
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Establecer y mantener rigurosos programas de Alineación de Valores e Intención de la IA durante todo el ciclo de vida del sistema, con énfasis en la Controlabilidad y la incorporación explícita de principios éticos humanos, para mitigar la desviación de los objetivos y el comportamiento no deseado 2. Implementar Marcos de trabajo con el Humano en el Circuito (Human-in-the-Loop) para asegurar la supervisión y validación de las decisiones de la IA en contextos críticos. Esto debe complementarse con Auditorías Periódicas y la monitorización de KPIs de rendimiento y seguridad para detectar proactivamente el Model Drift y las anomalías 3. Adoptar principios de IA Explicable (XAI) e Interpretabilidad para dotar a los responsables de la capacidad de comprender el mecanismo de toma de decisiones del sistema, facilitando el diagnóstico de las causas raíz de las Consecuencias no intencionadas y la aplicación de ajustes correctivos