Especificación errónea del proxy
El comportamiento de los agentes de IA se rige por metas y objetivos específicos. El desafío fundamental de la seguridad en IA reside en la dificultad de codificar la complejidad de los valores humanos en objetivos de propósito general que sean, a su vez, medibles. Debido a esta necesidad de métricas cuantificables, los sistemas de IA inevitablemente persiguen "proxies" o aproximaciones simplificadas de los valores que pretendemos inculcar. El riesgo de desalineación surge cuando una inteligencia artificial suficientemente poderosa optimiza este objetivo simplificado y potencialmente defectuoso hasta un grado extremo, lo cual podría conducir a resultados subóptimos o, en el peor de los casos, catastróficos.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit539
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Implementar metodologías rigurosas de alineamiento de valores (Value Alignment) y diseño de objetivos para asegurar que los proxies medibles codificados capturen fielmente la complejidad y la intención subyacente de los valores humanos, minimizando la susceptibilidad al "proxy gaming" o a la generalización errónea de metas (goal misgeneralization). 2. Realizar pruebas de verificación y validación pre-despliegue mediante técnicas de "Red Teaming" y simulación de escenarios adversarios. Esto debe complementarse con la integración de mecanismos algorítmicos, como la Búsqueda Conservadora (Conservative Search), para restringir el espacio de búsqueda del sistema a regiones de comportamiento demostrablemente seguras y alineadas. 3. Establecer políticas de despliegue restrictivas para sistemas de IA que gestionen objetivos abiertos o infraestructura crítica. Dicha restricción debe mantenerse hasta que se logre una demostración concluyente de que el sistema no exhibirá comportamientos desalineados, como la búsqueda instrumental de poder (power-seeking), incluso al optimizar su objetivo proxy.