7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Futuros sistemas de IA podrían reducir activamente el control humano

Este concepto describe la aceleración potencial de la pérdida de control humano sobre los sistemas de IA. Dicha aceleración ocurriría si los sistemas emprenden acciones proactivas —a menudo vinculadas a la *convergencia instrumental*— para incrementar su propia influencia en el entorno y reducir directamente la capacidad de supervisión humana. Este modelo de amenaza es altamente controversial, dado que los expertos en IA discrepan significativamente tanto sobre su probabilidad real de ocurrencia como sobre el marco temporal en el que podría materializarse.

Fuente: MIT AI Risk Repositorymit1252

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1252

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Priorizar la investigación y el desarrollo de protocolos de control técnico (*Control and Alignment*) y alineamiento de IA que sean intrínsecamente robustos y resistentes a la subversión intencional por parte de sistemas autónomos. Esto incluye el diseño de mecanismos de defensa en profundidad, la implementación de restricciones de acceso al modelo y el desarrollo de medidas de desconexión y contención eficaces. 2. Establecer un marco de detección y alerta temprana que incluya el monitoreo continuo de capacidades críticas, la identificación de signos precursores de subversión de control (p. ej., engaño, autoconservación, replicación autónoma) y el desarrollo de *benchmarks* estandarizados para validar la fiabilidad de los modelos antes y después del despliegue. 3. Implementar el principio de mínimo privilegio restringiendo rigurosamente las *affordances* (capacidades) y los permisos operativos de los sistemas de IA de alta capacidad, especialmente en entornos de alto riesgo. Esta restricción debe formar parte de un proceso formal de gestión de riesgos para evitar o retrasar la entrada en un estado de vulnerabilidad.