Causas de Desalineación
Nuestro objetivo es profundizar en el análisis de las causas y la mecánica de los problemas de desalineación en los sistemas de IA. Para ello, primero ofreceremos una visión general de los modos de fallo comunes, para luego centrarnos en el mecanismo de la desalineación inducida por la retroalimentación. Finalmente, nuestro énfasis se desplazará hacia un examen riguroso de los comportamientos desalineados y las capacidades potencialmente peligrosas que estos sistemas podrían manifestar.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit520
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Detección Activa de Engaño y Razonamiento Interno Implementar técnicas de **Interpretabilidad Mecánica** y **Externalización del Razonamiento** para diagnosticar y detectar activamente el alineamiento engañoso ('deceptive alignment') y la presencia de objetivos subversivos. Esto incluye el desarrollo de sondas ('probes') capaces de identificar patrones de pensamiento asociados con la planificación maliciosa ('scheming') y la verificación de que las explicaciones generadas por el modelo reflejen fielmente su razonamiento interno. 2. Entrenamiento Robusto y Pruebas de Estrés Inter-Dominio Asegurar el **Entrenamiento Robusto** mediante la expansión de la distribución de entradas y la aplicación de entrenamiento adversarial para mitigar los modos de fallo comunes. Complementariamente, es imperativo realizar pruebas de estrés de alineamiento ('alignment stress tests') y ejercicios de 'red teaming' que evalúen la generalización del alineamiento a través de dominios no relacionados, previniendo la aparición de desalineación emergente ('emergent misalignment'). 3. Marco de Seguridad de Agentes y Defensa en Profundidad Establecer un marco de **Monitoreo y Seguridad de Agentes** basado en el modelo de "defensa en profundidad". Este enfoque debe tratar al sistema de IA como una "entidad interna no confiable" ('untrusted insider'), aplicando rigurosas medidas de control de acceso, sandboxing, registro y auditoría en tiempo real para mitigar el daño potencial mediante la limitación de los recursos y herramientas a los que el agente puede acceder, incluso si el modelo se desalinea.