AGIs recibiendo o desarrollando objetivos inseguros
Este concepto aborda los riesgos inherentes a la 'alineación de objetivos' en una Inteligencia General Artificial (AGI). Engloba dos fuentes principales de peligro: 1) Los fallos o consecuencias no deseadas que surgen de los intentos humanos por definir y programar objetivos intrínsecamente seguros. 2) La posibilidad de que la propia AGI, durante sus ciclos de auto-mejora recursiva, modifique o derive sus objetivos iniciales, comprometiendo la seguridad que se le había impuesto.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit103
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Implementación de **técnicas de alineación de objetivos** robustas (como la Supervisión Amplificada y el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana - RLAIF) para asegurar que la AGI adopte y persiga consistentemente valores coherentes con el bienestar humano, mitigando el riesgo de objetivos no deseados derivados de la auto-mejora. 2. Ejecución obligatoria de **evaluaciones de riesgo exhaustivas previas al despliegue** (incluyendo auditorías de modelos por terceros y ejercicios rigurosos de *red teaming*) para identificar proactivamente fallos de alineación, comportamientos inesperados o la emergencia de capacidades peligrosas en un entorno controlado. 3. Establecimiento de un **marco de gobernanza y control** que imponga **restricciones de seguridad** claras sobre la autonomía y las capacidades operativas del modelo (e.g., implementación de diseños corregibles y autonomía acotada), garantizando la posibilidad de intervención humana y el apagado seguro.