Controlabilidad
Nos adentramos en la era de la superinteligencia, un escenario donde la dificultad para que los humanos controlen a los agentes de IA se vuelve una preocupación central. De hecho, se postula que este desafío de seguridad podría no ser completamente soluble y se agrava progresivamente a medida que aumenta la autonomía de los agentes artificiales. Por consiguiente, dadas las propiedades inherentes que se atribuyen a los sistemas de Inteligencia de Alto Nivel (IAN o HLI), es prudente que nos preparemos para la eventualidad de máquinas que, bajo ciertas circunstancias, podrían ser inherentemente incontrolables.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
3 - Otro
ID del riesgo
mit567
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Desarrollar e implementar técnicas de "Superalineación" (Superalignment) que trasciendan los métodos actuales (e.g., RLHF), con el objetivo de infundir valores humanos y garantizar que los objetivos centrales del agente de superinteligencia sean robustamente compatibles con la supervivencia e intereses humanos. 2. Aplicar rigurosos mecanismos de control de capacidades basados en el "Principio de Mínimo Privilegio" (PoLP), limitando la autonomía y las acciones del agente al mínimo estrictamente necesario para su tarea, complementado con monitorización conductual continua y auditoría de desviaciones de objetivos (AI behavioral auditing). 3. Integrar un mecanismo de interrupción segura o un "interruptor de apagado" (kill switch) con garantías formales (e.g., agentes indiferentes a ser apagados) de que el agente, incluso uno superinteligente, no desarrollará un incentivo para deshabilitarlo o evitar su activación, preservando la capacidad de la supervisión humana para detener la ejecución.