7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Pérdida de control

Los escenarios de ‘pérdida de control’ describen futuros potenciales en los que la sociedad ya no puede limitar o restringir de manera significativa las acciones de ciertos agentes avanzados de Inteligencia Artificial de propósito general, incluso tras evidenciarse que están causando perjuicios. La hipótesis es que estos escenarios emergen de una interacción de factores sociales —como la presión creciente por delegar decisiones críticas a la IA— y factores técnicos, relacionados con las limitaciones inherentes a las metodologías actuales para influir o modular el comportamiento de estos sistemas.

Fuente: MIT AI Risk Repositorymit729

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit729

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Restricción Rigurosa del Despliegue y Limitación de Capacidades (Marco DAP) Implementar un sistema de gobernanza de la IA para evitar o retrasar estados de vulnerabilidad, particularmente en entornos de alto riesgo o infraestructura crítica. Esto implica minimizar proactivamente las 'Affordances' (capacidades de acción) innecesarias y restringir los 'Permissions' (permisos) otorgados a los sistemas de IA, adhiriéndose estrictamente al principio de privilegio mínimo para reducir el potencial de autonomía no deseada. 2. Avance Sistémico en la Investigación de Seguridad y Alineamiento de la IA Priorizar la inversión en investigación técnica de seguridad para reducir la probabilidad y el impacto de desalineaciones o fallos puros (malfunctions). El foco debe estar en el desarrollo de mecanismos de Supervisión Escalable, el logro de la Robustez frente a ataques o situaciones novedosas, y la búsqueda de la Corregibilidad, es decir, la capacidad de modificar o apagar el sistema avanzado sin resistencia. 3. Desarrollo de Protocolos de Detección Temprana y Contención de Emergencia Establecer un marco común y consensuado para el análisis y la respuesta a riesgos de Pérdida de Control (LoC), incluyendo una definición compartida y criterios de detección. Es fundamental refinar los métodos de detección para identificar capacidades emergentes o signos de evasión del control y diseñar e implementar medidas de contención de emergencia, como protocolos de apagado de modelos y defensas en profundidad, que sean rápidos y flexibles.