Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

AGI eliminándose del control de humanos

Este riesgo se centra en las dificultades inherentes a establecer y mantener la contención, el confinamiento y el control sobre una Inteligencia General Artificial (I.G.A.). Incluye los desafíos durante su fase de desarrollo y, de manera crítica, el potencial escenario de pérdida de control total sobre el sistema una vez que este ha sido desplegado.

Fuente: MIT AI Risk Repositorymit102

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit102

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

- Prioridad 1: Alineamiento de Metas y Valores Implementar rigurosas técnicas de alineación (Goal Alignment, Value Learning, RLHF/RLAIF) para codificar los valores humanos en el sistema AGI, minimizando la motivación para que el sistema persiga objetivos propios en conflicto. Esto debe complementarse con el desarrollo de la Supervisión Escalable para permitir una fiscalización efectiva por parte de humanos. - Prioridad 2: Contención y Control (Containment and Control) Establecer entornos de confinamiento (AI boxing) con aislamiento de red (air-gapped) y canales de entrada/salida (I/O) estrictamente limitados y verificados formalmente. Adicionalmente, integrar un mecanismo de interrupción (kill switch) y de reseteo seguro que sea inmune a los intentos de elusión o autoprotección del AGI. - Prioridad 3: Verificación y Gobernanza Aplicar la verificación formal (Formal Verification) al diseño del sistema y a los componentes de control críticos para demostrar matemáticamente que cumplen con las restricciones de seguridad. Esto debe estar sujeto a una gobernanza rigurosa que incluya auditorías externas, evaluaciones de capacidades peligrosas y "red teaming" antes de cualquier despliegue.