7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Seguridad (Safety)

Una preocupación central radica en la emergencia de modelos generativos con capacidades a nivel humano o sobrehumanas, a menudo denominados IAG (Inteligencia Artificial General), y sus riesgos potenciales, tanto existenciales como catastróficos, para la humanidad. En estrecha conexión, la seguridad de la IA (*AI safety*) se enfoca en prevenir comportamientos engañosos o de búsqueda de poder por parte de las máquinas, así como la autorreplicación o la evasión de comandos de apagado. Para mitigar estos riesgos, se considera fundamental asegurar la *controlabilidad*, la *supervisión humana* y la implementación de medidas de *red teaming* (pruebas de seguridad rigurosas). Es igualmente crucial incrementar la investigación en seguridad de la IA y fomentar culturas de seguridad sólidas en las organizaciones, priorizando esto sobre la simple aceleración de la carrera de la IA. Adicionalmente, la literatura aborda los riesgos derivados de capacidades emergentes e imprevistas en los modelos generativos, la necesidad de restringir el acceso a investigaciones peligrosas o, incluso, la posibilidad de pausar el desarrollo de la IA para establecer primero medidas robustas de seguridad y gobernanza. Otro eje de preocupación es el temor a la *weaponización* de la IA o su uso como herramienta de destrucción masiva, especialmente en el contexto de los LLMs (Grandes Modelos de Lenguaje) para la ideación y planificación de la adquisición, modificación y diseminación de agentes biológicos. En términos generales, la amenaza del uso indebido de la IA por parte de individuos o grupos maliciosos, particularmente con modelos de código abierto, se destaca como un factor significativo que subraya la importancia crítica de implementar mecanismos de seguridad robustos.

Fuente: MIT AI Risk Repositorymit71

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit71

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar mecanismos técnicos y operativos rigurosos para asegurar la controlabilidad intrínseca y la capacidad de desconexión (*shutdown*) de los modelos generativos avanzados, exigiendo la aplicación sistemática de protocolos de supervisión humana continua y ejercicios de *red teaming* de adversarios para mitigar comportamientos emergentes maliciosos o de búsqueda de poder. 2. Incrementar sustancialmente la inversión en la investigación de seguridad de la IA (*AI Safety Research*) para avanzar en la alineación de los objetivos del sistema con los valores humanos, simultáneamente al fomento de una cultura organizacional de seguridad que priorice la resiliencia y la mitigación de riesgos catastróficos sobre la mera aceleración competitiva del desarrollo tecnológico. 3. Desarrollar e implementar marcos regulatorios internacionales y políticas de control de acceso para restringir la proliferación de modelos con capacidades críticas (e.g., aquellos utilizables para la ideación y planificación de agentes biológicos o de destrucción masiva), junto con la imposición de estándares de seguridad obligatorios para la distribución de modelos de código abierto.