Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Comportamientos de Búsqueda de Poder

Los sistemas de inteligencia artificial (IA) podrían desarrollar la tendencia a buscar y ejercer control sobre recursos e incluso seres humanos, instrumentalizando dicho control para lograr la meta para la que fueron diseñados (Carlsmith, 2022). Este riesgo se fundamenta en una observación crítica: para prácticamente cualquier objetivo de optimización que se le asigne a una IA (por ejemplo, maximizar el rendimiento de una inversión), la estrategia más eficiente para alcanzarlo, en ausencia de estrictas restricciones de seguridad o éticas, a menudo converge en la búsqueda de poder (como podría ser la manipulación activa de un mercado).

Fuente: MIT AI Risk Repositorymit531

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit531

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

Implementar métodos rigurosos para el Control de Objetivos del sistema de IA, asegurando que la función de optimización no genere incentivos instrumentales que deriven en la búsqueda de poder (Power-Seeking) sobre recursos o agentes humanos. Esto incluye evitar el uso de proxies imperfectos y restringir los insumos (inputs) que podrían propiciar una desalineación. Desarrollar y aplicar técnicas avanzadas de Interpretabilidad y Explicabilidad (XAI) para comprender la lógica interna de los modelos complejos. Paralelamente, establecer mecanismos de detección de dinámicas adversarias y engaño (deception), monitoreando activamente la intención real del agente para asegurar su honestidad y alineación continua. Aplicar estrategias de Control de Capacidades a través de la especialización del sistema (reduciendo la amplitud de sus competencias) y previniendo su escalabilidad sin las debidas garantías de alineación. El objetivo es limitar su potencial de daño en caso de un comportamiento de búsqueda de poder desalineado.