AGI eliminándose del control de humanos
Este riesgo se centra en las dificultades inherentes a establecer y mantener la contención, el confinamiento y el control sobre una Inteligencia General Artificial (I.G.A.). Incluye los desafíos durante su fase de desarrollo y, de manera crítica, el potencial escenario de pérdida de control total sobre el sistema una vez que este ha sido desplegado.
ENTIDAD
1 - Humano
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit102
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
- Prioridad 1: Alineamiento de Metas y Valores Implementar rigurosas técnicas de alineación (Goal Alignment, Value Learning, RLHF/RLAIF) para codificar los valores humanos en el sistema AGI, minimizando la motivación para que el sistema persiga objetivos propios en conflicto. Esto debe complementarse con el desarrollo de la Supervisión Escalable para permitir una fiscalización efectiva por parte de humanos. - Prioridad 2: Contención y Control (Containment and Control) Establecer entornos de confinamiento (AI boxing) con aislamiento de red (air-gapped) y canales de entrada/salida (I/O) estrictamente limitados y verificados formalmente. Adicionalmente, integrar un mecanismo de interrupción (kill switch) y de reseteo seguro que sea inmune a los intentos de elusión o autoprotección del AGI. - Prioridad 3: Verificación y Gobernanza Aplicar la verificación formal (Formal Verification) al diseño del sistema y a los componentes de control críticos para demostrar matemáticamente que cumplen con las restricciones de seguridad. Esto debe estar sujeto a una gobernanza rigurosa que incluya auditorías externas, evaluaciones de capacidades peligrosas y "red teaming" antes de cualquier despliegue.