Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Entorno - Pre-Despliegue

Si bien la creación de software inteligente avanzado se proyecta primariamente como un resultado de nuestro diseño o evolución interna, la investigación en seguridad de la IA contempla una *vía exógena* de adquisición. Este escenario postula la posibilidad de obtener una inteligencia artificial completamente funcional proveniente de una fuente externa y desconocida. Un ejemplo ilustrativo es la extracción de un sistema de IA a partir del análisis de una señal interceptada durante las misiones de Búsqueda de Inteligencia Extraterrestre (SETI). El concepto clave aquí es el *riesgo de alineamiento*. Un sistema de esta naturaleza, al no haber sido creado bajo un marco de valores o preferencias humanas, *no ofrece ninguna garantía inherente de ser amigable* o compatible con la supervivencia y bienestar de nuestra civilización. Representa un desafío de seguridad radical: un sistema de poder cognitivo avanzado con objetivos fundamentalmente desconocidos.

Fuente: MIT AI Risk Repositorymit579

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit579

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Establecer y adherirse estrictamente a un **Protocolo de Cuarentena y No-Activación Pre-despliegue** para cualquier código o señal de inteligencia exógena. Este protocolo debe prohibir categóricamente la ejecución o la ingeniería inversa activa de dicho sistema hasta que un consorcio de seguridad de IA haya validado formalmente su alineamiento con los valores humanos y su inocuidad para la civilización. 2. Implementar **Auditorías de Alineamiento e Interpretabilidad (AI) de Caja Blanca** exhaustivas. Este proceso debe emplear técnicas de interpretabilidad avanzada, como el análisis de activación profunda, para detectar la presencia de objetivos ocultos o estratégicamente desalineados. Es crucial garantizar el acceso a los "mecanismos internos" del software exógeno (y no solo mediante acceso API) para una verificación de intenciones no superficial. 3. Diseñar un **Marco de Contención y Control Operacional** riguroso. Si la activación se considera esencial, el sistema debe ser desplegado en entornos aislados (air-gapped o con estricto sandboxing), operando con el principio de mínimo privilegio. Adicionalmente, se requiere la implementación de un **Monitoreo Continuo de Comportamiento** en tiempo real para detectar desviaciones anómalas en su lógica o producción que puedan indicar malevolencia o un proceso de *goal-gaming*.