Riesgo a Largo Plazo y Existencial
El potencial teórico de los futuros sistemas de inteligencia artificial avanzada para causar un daño significativo a la civilización humana. Este riesgo se articula en dos dimensiones críticas: el uso indebido de la tecnología o la dificultad inherente de alinear sus objetivos con los valores fundamentales de la humanidad
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit163
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Priorizar la investigación fundamental en Alineamiento de la IA (AI Alignment) para desarrollar y validar métodos robustos que permitan la especificación precisa y la adopción inmutable de los valores y objetivos humanos en sistemas avanzados, minimizando el riesgo de objetivos disfuncionales o el comportamiento de búsqueda de poder. 2. Implementar marcos exhaustivos de Gobernanza y Seguridad de la IA (AI Governance and Safety) que incluyan evaluaciones de riesgo (evals) obligatorias antes del despliegue, auditorías independientes de terceros, y la aplicación de métodos formales de verificación para garantizar la previsibilidad y la robustez de los sistemas de IA de alto riesgo. 3. Fomentar la cooperación internacional y la creación de acuerdos multilaterales vinculantes que establezcan estándares de seguridad globales y mecanismos de control de acceso a las capacidades más avanzadas de la IA, con el fin de mitigar la presión de una "carrera armamentística" en el desarrollo y el riesgo de uso malicioso por parte de actores hostiles.