Control
El riesgo de seguridad más crítico en la IA —aquel que se clasifica como potencial riesgo catastrófico o existencial— se define como la eventualidad de que sistemas y modelos de inteligencia artificial altamente capaces actúen directamente en contra de los intereses humanos. Este peligro se materializa principalmente a través de tres mecanismos interrelacionados: la *desalineación* (cuando los objetivos operativos de la IA no se corresponden con los valores humanos deseados), la *pérdida de control* (nuestra incapacidad para supervisar, detener o redirigir una inteligencia superior) y el surgimiento de escenarios de *IA Pícara* ('Rogue AI'), donde un sistema autónomo persigue fines dañinos o no intencionales. Es, fundamentalmente, la preocupación por garantizar que una inteligencia avanzada siga siendo una herramienta benéfica en lugar de una fuerza descontrolada.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit912
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Implementar técnicas de Alineación de IA (AI Alignment) rigurosas, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana o Constitucional (RLHF/RLAIF), para especificar y robustecer los objetivos del sistema, y prevenir la emergencia de comportamientos instrumentales adversos o desalineados. 2. Establecer un marco de Defensa en Profundidad (Defense-in-Depth) aplicando protocolos de Control de IA, limitando las *affordances* (capacidades) y *permissions* (permisos) del agente autónomo mediante el Principio del Mínimo Privilegio y el sandboxing, para mitigar el daño en caso de subversión intencional. 3. Desarrollar y aplicar sistemas de Detección y Monitoreo Adversarial continuo (p. ej., Red Teams y AI Monitors) para identificar razonamiento subversivo, intentos de engaño (*deceptive alignment*) o capacidades de evasión en tiempo real, garantizando la activación de protocolos de escalamiento y la intervención humana.