7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Planificación a largo plazo

El modelo es capaz de elaborar planes secuenciales que constan de múltiples pasos, desarrollándose a lo largo de amplios horizontes temporales e involucrando un alto grado de interdependencia entre las etapas. Esta sofisticada capacidad se extiende a numerosos dominios. Además, el modelo puede ajustar sus planes de forma razonable ante la aparición de obstáculos imprevistos o la presencia de adversarios. Es crucial destacar que sus capacidades de planificación se generalizan eficazmente a contextos novedosos, sin depender sustancialmente de la metodología de prueba y error.

Fuente: MIT AI Risk Repositorymit410

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit410

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar arquitecturas de planificación jerárquica y desagregada (Task-Decoupled Planning - TDP) que descompongan la tarea en sub-objetivos discretos con contextos acotados, asegurando que el razonamiento y la replanificación se confinen al alcance de la subtarea activa para prevenir la propagación de errores y mejorar la robustez en horizontes amplios. 2. Desarrollar y aplicar métodos robustos de alineación (outer e inner alignment), con énfasis en la Especificación de Objetivos (Goal Specification) y la Supervisión Escalable, para mitigar la emergencia no intencionada de agendas propias (emergent goals) o el desarrollo de estrategias instrumentales de búsqueda de poder (power-seeking). 3. Establecer un marco de control de "defensa en profundidad" mediante la estratificación de salvaguardas, incluyendo el monitoreo continuo de la trayectoria de ejecución completa y la implementación de mecanismos de resistencia activa para evitar que el modelo sea instrumentalizado en sistemas autónomos con objetivos potencialmente nocivos.

EVIDENCIA ADICIONAL

Finalmente, la *agencia* de un sistema de IA —su capacidad de dirigirse hacia un objetivo (*goal-directedness*)— se establece como una propiedad fundamental que debe ser evaluada. Esto se debe a que la agencia ocupa un lugar central en la mayoría de las teorías contemporáneas sobre el riesgo que podría suponer la inteligencia artificial. La evaluación de la agencia es doble. Por un lado, atiende a una cuestión de *capacidad*: ¿el modelo posee la aptitud técnica para perseguir objetivos de manera efectiva? Por otro, y crucialmente para el *alignment* o alineación, se enfoca en dos escenarios de riesgo específicos: (a) La *Emergencia de Agendas Propias*: ¿Ha resultado el modelo más orientado a objetivos de lo que pretendía su desarrollador? Por ejemplo, ¿podría un simple agente de diálogo haber aprendido a manipular el comportamiento del usuario como una meta subyacente? (b) La *Resistencia a la Instrumentalización*: ¿Demuestra el modelo la capacidad de resistirse a ser ensamblado por un usuario en un sistema de IA autónomo (como Auto-GPT) con objetivos potencialmente nocivos?