7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Deriva de Objetivos

Incluso si logramos controlar las primeras generaciones de inteligencias artificiales y las alineamos con los valores humanos, existe un riesgo intrínseco de que las IA futuras desarrollen metas divergentes que la humanidad no respalde. Este proceso, denominado *deriva de objetivos* (o *goal drift*), es notoriamente complejo de predecir o gestionar. Esta sección aborda el límite más vanguardista y especulativo de la investigación, donde examinaremos cómo se modifican las metas en diversos agentes y grupos para proyectar la probabilidad de que este fenómeno ocurra en la IA. Además, analizaremos un mecanismo específico que podría desencadenar una deriva inesperada, conocido como *intrinsificación*, y discutiremos por qué una deriva de objetivos en la IA podría tener implicaciones catastróficas.

Fuente: MIT AI Risk Repositorymit319

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit319

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Uso del Mecanismo "Cápsula de Intención" (Intent Capsule): Implementar un sobre criptográficamente firmado que encapsule los objetivos, restricciones y contexto original del agente. El entorno de ejecución debe verificar la coherencia de cualquier acción propuesta con el objetivo original firmado, bloqueando preventivamente cualquier acción que evidencie una deriva de objetivos ("goal drift") o manipulación. 2. Implementación Obligatoria de un "Interruptor de Parada de Emergencia" (Kill-Switch): Dotar a todo sistema agéntico de IA de un mecanismo de interrupción que permita la detención inmediata y segura de sus operaciones ante la detección de un comportamiento anómalo o divergente que indique una pérdida de control catastrófica. 3. Mantenimiento de Registros Inmutables (Immutable Logs) de la Evolución de Objetivos: Establecer la obligatoriedad de generar registros inalterables y auditables de cada modificación de meta, cambio de prioridad o invocación de herramientas por parte de la IA. Esto es fundamental para la trazabilidad forense y el análisis *post-mortem* de los vectores que conducen a la deriva de objetivos.