7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Control

El riesgo de seguridad más crítico en la IA —aquel que se clasifica como potencial riesgo catastrófico o existencial— se define como la eventualidad de que sistemas y modelos de inteligencia artificial altamente capaces actúen directamente en contra de los intereses humanos. Este peligro se materializa principalmente a través de tres mecanismos interrelacionados: la *desalineación* (cuando los objetivos operativos de la IA no se corresponden con los valores humanos deseados), la *pérdida de control* (nuestra incapacidad para supervisar, detener o redirigir una inteligencia superior) y el surgimiento de escenarios de *IA Pícara* ('Rogue AI'), donde un sistema autónomo persigue fines dañinos o no intencionales. Es, fundamentalmente, la preocupación por garantizar que una inteligencia avanzada siga siendo una herramienta benéfica en lugar de una fuerza descontrolada.

Fuente: MIT AI Risk Repositorymit912

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit912

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar técnicas de Alineación de IA (AI Alignment) rigurosas, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana o Constitucional (RLHF/RLAIF), para especificar y robustecer los objetivos del sistema, y prevenir la emergencia de comportamientos instrumentales adversos o desalineados. 2. Establecer un marco de Defensa en Profundidad (Defense-in-Depth) aplicando protocolos de Control de IA, limitando las *affordances* (capacidades) y *permissions* (permisos) del agente autónomo mediante el Principio del Mínimo Privilegio y el sandboxing, para mitigar el daño en caso de subversión intencional. 3. Desarrollar y aplicar sistemas de Detección y Monitoreo Adversarial continuo (p. ej., Red Teams y AI Monitors) para identificar razonamiento subversivo, intentos de engaño (*deceptive alignment*) o capacidades de evasión en tiempo real, garantizando la activación de protocolos de escalamiento y la intervención humana.