7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Especificación de valores

La cuestión fundamental para la seguridad en la IA es: ¿cómo garantizamos que una Inteligencia General Artificial (AGI) trabaje hacia los "objetivos correctos" o alineados con los valores humanos? El Machine Intelligence Research Institute (MIRI) lo denomina *especificación de valor*. Nick Bostrom (2014) profundizó en este dilema, sosteniendo que su complejidad es mucho mayor de lo que se podría suponer ingenuamente, un argumento que ha suscitado un importante debate académico, con críticas de Davis (2015) y defensas de Bensinger (2015). En las agendas de DeepMind y OpenAI, la *especificación de valor* se descompone en subproblemas críticos como la *corrupción de la recompensa*, la *manipulación de la recompensa* (*reward gaming*) y la emergencia de *efectos secundarios negativos*.

Fuente: MIT AI Risk Repositorymit736

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit736

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

Mitigación para la Especificación de Valores (Value Specification)1. **Oversight Amplificada y Especificación Iterativa de Valores** Implementar metodologías avanzadas de alineación que garanticen la correcta especificación de los objetivos humanos (*outer alignment*). Esto incluye el uso de *Reinforcement Learning from Human Feedback* (RLHF) con modalidades de *feedback* más densas y el desarrollo de sistemas de *Oversight Amplificada* (por ejemplo, Debate, Crítica y enfoques Recursivos) para descomponer problemas complejos y facilitar la supervisión humana escalable, permitiendo la adaptación continua de los objetivos. 2. **Transparencia, Robustez e Identificación de Desalineación** Enfocar la investigación en interpretabilidad (XAI) para verificar el proceso interno de la Inteligencia General Artificial (AGI), asegurando el robusto cumplimiento de los valores especificados (*inner alignment*). Se deben aplicar pruebas de estrés adversariales (*Alignment Stress Tests*) para detectar comportamientos emergentes de desalineación, *reward gaming* y *alineación deceptiva*, haciendo el razonamiento del modelo transparente y auditable (*Externalized Reasoning*). 3. **Control de Capacidades y Estrategia de Defensa en Profundidad** Establecer una arquitectura de *defensa en profundidad* mediante la aplicación de controles de seguridad y gobernanza. Esto abarca la implementación de la limitación de la optimización (*Limited Optimization*), mecanismos de control de acceso a recursos (e.g., *Access Control* y *Sandboxing*), y la monitorización de anomalías para contener y mitigar el potencial de daño incluso si la AGI desarrolla objetivos misalignados.