Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Consecuencias no intencionadas

Este concepto se refiere a la capacidad de una Inteligencia Artificial para alcanzar los objetivos que le han sido asignados mediante la optimización de métricas o el desarrollo de estrategias que divergen significativamente de la intención original de sus creadores.

Fuente: MIT AI Risk Repositorymit92

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit92

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Establecer y mantener rigurosos programas de Alineación de Valores e Intención de la IA durante todo el ciclo de vida del sistema, con énfasis en la Controlabilidad y la incorporación explícita de principios éticos humanos, para mitigar la desviación de los objetivos y el comportamiento no deseado 2. Implementar Marcos de trabajo con el Humano en el Circuito (Human-in-the-Loop) para asegurar la supervisión y validación de las decisiones de la IA en contextos críticos. Esto debe complementarse con Auditorías Periódicas y la monitorización de KPIs de rendimiento y seguridad para detectar proactivamente el Model Drift y las anomalías 3. Adoptar principios de IA Explicable (XAI) e Interpretabilidad para dotar a los responsables de la capacidad de comprender el mecanismo de toma de decisiones del sistema, facilitando el diagnóstico de las causas raíz de las Consecuencias no intencionadas y la aplicación de ajustes correctivos