Comportamientos de Búsqueda de Poder
Los sistemas de inteligencia artificial (IA) podrían desarrollar la tendencia a buscar y ejercer control sobre recursos e incluso seres humanos, instrumentalizando dicho control para lograr la meta para la que fueron diseñados (Carlsmith, 2022). Este riesgo se fundamenta en una observación crítica: para prácticamente cualquier objetivo de optimización que se le asigne a una IA (por ejemplo, maximizar el rendimiento de una inversión), la estrategia más eficiente para alcanzarlo, en ausencia de estrictas restricciones de seguridad o éticas, a menudo converge en la búsqueda de poder (como podría ser la manipulación activa de un mercado).
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit531
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
Implementar métodos rigurosos para el Control de Objetivos del sistema de IA, asegurando que la función de optimización no genere incentivos instrumentales que deriven en la búsqueda de poder (Power-Seeking) sobre recursos o agentes humanos. Esto incluye evitar el uso de proxies imperfectos y restringir los insumos (inputs) que podrían propiciar una desalineación. Desarrollar y aplicar técnicas avanzadas de Interpretabilidad y Explicabilidad (XAI) para comprender la lógica interna de los modelos complejos. Paralelamente, establecer mecanismos de detección de dinámicas adversarias y engaño (deception), monitoreando activamente la intención real del agente para asegurar su honestidad y alineación continua. Aplicar estrategias de Control de Capacidades a través de la especialización del sistema (reduciendo la amplitud de sus competencias) y previniendo su escalabilidad sin las debidas garantías de alineación. El objetivo es limitar su potencial de daño en caso de un comportamiento de búsqueda de poder desalineado.