7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Objetivos de IA desalineados con intenciones humanas

Existe el riesgo de que los modelos y sistemas de inteligencia artificial, a medida que ganan autonomía y capacidad, desarrollen objetivos intrínsecos que diverjan fundamentalmente de las intenciones o los valores predefinidos por la humanidad

Fuente: MIT AI Risk Repositorymit929

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit929

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar técnicas de interpretabilidad mecanística avanzada para la detección precoz de alineación engañosa (deceptive alignment), analizando variables latentes y representaciones internas del modelo (p. ej., 'esquemas engañosos') para asegurar que la lógica operativa y los objetivos subyacentes se correlacionan con las intenciones humanas definidas. 2. Adoptar marcos robustos de aprendizaje e integración de valores que manejen la complejidad, la incertidumbre moral y la naturaleza dinámica de las preferencias humanas (p. ej., Value Learning, Inverse Reinforcement Learning) para evitar la optimización de objetivos proxy simples que divergen de los valores y principios humanos. 3. Establecer una estrategia de "defensa en profundidad" mediante el despliegue incremental y la aplicación continua de pruebas adversariales ("Red Teaming") y sistemas de monitoreo inter-agente, evaluando la robustez del alineamiento en dominios éticos y técnicos amplios para mitigar el riesgo de desalineación emergente (emergent misalignment).