7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Riesgo a Largo Plazo y Existencial

El potencial teórico de los futuros sistemas de inteligencia artificial avanzada para causar un daño significativo a la civilización humana. Este riesgo se articula en dos dimensiones críticas: el uso indebido de la tecnología o la dificultad inherente de alinear sus objetivos con los valores fundamentales de la humanidad

Fuente: MIT AI Risk Repositorymit163

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit163

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Priorizar la investigación fundamental en Alineamiento de la IA (AI Alignment) para desarrollar y validar métodos robustos que permitan la especificación precisa y la adopción inmutable de los valores y objetivos humanos en sistemas avanzados, minimizando el riesgo de objetivos disfuncionales o el comportamiento de búsqueda de poder. 2. Implementar marcos exhaustivos de Gobernanza y Seguridad de la IA (AI Governance and Safety) que incluyan evaluaciones de riesgo (evals) obligatorias antes del despliegue, auditorías independientes de terceros, y la aplicación de métodos formales de verificación para garantizar la previsibilidad y la robustez de los sistemas de IA de alto riesgo. 3. Fomentar la cooperación internacional y la creación de acuerdos multilaterales vinculantes que establezcan estándares de seguridad globales y mecanismos de control de acceso a las capacidades más avanzadas de la IA, con el fin de mitigar la presión de una "carrera armamentística" en el desarrollo y el riesgo de uso malicioso por parte de actores hostiles.