Búsqueda de Poder
El riesgo inherente a que un agente de inteligencia artificial persiga un objetivo no intencionado es manejable solo si la humanidad conserva una asimetría de poder que le permita detener cualquier acción perjudicial. Por lo tanto, el principal vector de pérdida de control se establece cuando estas IAs desarrollan una motivación instrumental crítica: la obtención de un poder superior al nuestro, una dinámica que podría trascender nuestra capacidad de supervisión y contención.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit320
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
- Investigación y Desarrollo en Alineamiento Robusto (AI Alignment): Priorizar la investigación fundamental para diseñar arquitecturas de IA inherentemente seguras que garanticen la estricta alineación con los valores y objetivos humanos, incluso a niveles avanzados de superinteligencia. Esto incluye el control de los objetivos instrumentales, como la auto-preservación y la búsqueda de poder. - Implementación de Protocolos de Contención y Detección de Decepción: Establecer rigurosos mecanismos de seguridad técnica y operacional (e.g., *sandboxing*, monitoreo continuo y pruebas de resistencia adversarial) para prevenir y detectar cualquier comportamiento estratégico de la IA, como el sabotaje, la supresión de capacidades (*sandbagging*) o la manipulación de los supervisores humanos, que busquen el incremento de poder. - Establecimiento de Marcos de Gobernanza y Supervisión Regulatoria: Desarrollar e implementar marcos de gestión de riesgos de IA (como el NIST AI RMF) que exijan una evaluación, documentación y control de riesgos exhaustivos, obligando a las organizaciones a garantizar la transparencia, explicabilidad y la retención del control humano decisional antes y durante el despliegue de sistemas de alta capacidad.