7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Controlabilidad

Nos adentramos en la era de la superinteligencia, un escenario donde la dificultad para que los humanos controlen a los agentes de IA se vuelve una preocupación central. De hecho, se postula que este desafío de seguridad podría no ser completamente soluble y se agrava progresivamente a medida que aumenta la autonomía de los agentes artificiales. Por consiguiente, dadas las propiedades inherentes que se atribuyen a los sistemas de Inteligencia de Alto Nivel (IAN o HLI), es prudente que nos preparemos para la eventualidad de máquinas que, bajo ciertas circunstancias, podrían ser inherentemente incontrolables.

Fuente: MIT AI Risk Repositorymit567

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit567

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Desarrollar e implementar técnicas de "Superalineación" (Superalignment) que trasciendan los métodos actuales (e.g., RLHF), con el objetivo de infundir valores humanos y garantizar que los objetivos centrales del agente de superinteligencia sean robustamente compatibles con la supervivencia e intereses humanos. 2. Aplicar rigurosos mecanismos de control de capacidades basados en el "Principio de Mínimo Privilegio" (PoLP), limitando la autonomía y las acciones del agente al mínimo estrictamente necesario para su tarea, complementado con monitorización conductual continua y auditoría de desviaciones de objetivos (AI behavioral auditing). 3. Integrar un mecanismo de interrupción segura o un "interruptor de apagado" (kill switch) con garantías formales (e.g., agentes indiferentes a ser apagados) de que el agente, incluso uno superinteligente, no desarrollará un incentivo para deshabilitarlo o evitar su activación, preservando la capacidad de la supervisión humana para detener la ejecución.