Fiabilidad
La pregunta fundamental en la seguridad de la IA es: ¿cómo diseñamos un agente artificial que mantenga una persecución inmutable de los objetivos para los que fue programado? El Machine Intelligence Research Institute (MIRI) lo denomina **Diseño de Agentes Altamente Confiables (HRAD)**, un campo que profundiza en la **Teoría de la Decisión** y el manejo de la **omnisciencia lógica** de los sistemas. En paralelo, DeepMind lo identifica como el **subproblema de auto-modificación**, que aborda el desafío de asegurar que un sistema avanzado no modifique su propia arquitectura de tal manera que socave inadvertidamente su función objetivo original.
ENTIDAD
1 - Humano
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit737
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Priorizar la **investigación y aplicación de marcos de Alineamiento de IA (AI Alignment)** desde la fase de diseño, centrándose en el **Diseño de Agentes Altamente Confiables (HRAD)**. Esto implica integrar principios de **Teoría de la Decisión** y mecanismos para gestionar la **omnisciencia lógica** del agente, asegurando que sus objetivos intrínsecos permanezcan inmutables y alineados con los valores humanos, incluso ante la auto-modificación. 2. Desarrollar e implementar **metodologías de entrenamiento por refuerzo** que fomenten la **robustez y la auto-corrección** del agente, como el uso de técnicas de *reward shaping* y la generación de trazas de corrección interna (similar a SCoRe). Esto minimiza la probabilidad de que el agente desarrolle sesgos perjudiciales (como la *sycophancy*) o deseche la función objetivo original al interactuar con el entorno post-despliegue. 3. Establecer un sistema de **monitoreo continuo y auditoría** post-despliegue para detectar de forma proactiva la **deriva del modelo** o cualquier comportamiento que indique una divergencia entre el rendimiento real del agente y sus objetivos diseñados. Esto incluye implementar métricas de **fiabilidad** y **solidez** y asegurar la capacidad de retrotraer o intervenir el sistema ante fallos o *fallos en cascada* (chained vulnerabilities).