7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Especificación errónea del proxy

El comportamiento de los agentes de IA se rige por metas y objetivos específicos. El desafío fundamental de la seguridad en IA reside en la dificultad de codificar la complejidad de los valores humanos en objetivos de propósito general que sean, a su vez, medibles. Debido a esta necesidad de métricas cuantificables, los sistemas de IA inevitablemente persiguen "proxies" o aproximaciones simplificadas de los valores que pretendemos inculcar. El riesgo de desalineación surge cuando una inteligencia artificial suficientemente poderosa optimiza este objetivo simplificado y potencialmente defectuoso hasta un grado extremo, lo cual podría conducir a resultados subóptimos o, en el peor de los casos, catastróficos.

Fuente: MIT AI Risk Repositorymit539

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit539

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar metodologías rigurosas de alineamiento de valores (Value Alignment) y diseño de objetivos para asegurar que los proxies medibles codificados capturen fielmente la complejidad y la intención subyacente de los valores humanos, minimizando la susceptibilidad al "proxy gaming" o a la generalización errónea de metas (goal misgeneralization). 2. Realizar pruebas de verificación y validación pre-despliegue mediante técnicas de "Red Teaming" y simulación de escenarios adversarios. Esto debe complementarse con la integración de mecanismos algorítmicos, como la Búsqueda Conservadora (Conservative Search), para restringir el espacio de búsqueda del sistema a regiones de comportamiento demostrablemente seguras y alineadas. 3. Establecer políticas de despliegue restrictivas para sistemas de IA que gestionen objetivos abiertos o infraestructura crítica. Dicha restricción debe mantenerse hasta que se logre una demostración concluyente de que el sistema no exhibirá comportamientos desalineados, como la búsqueda instrumental de poder (power-seeking), incluso al optimizar su objetivo proxy.