7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Capacidad autónoma del modelo

Esta definición se centra en lo que en investigación de seguridad de IA denominamos la "Agencia Estratégica Generalizada" o "Strategic Autonomy". Implica que el sistema no solo puede operar de forma completamente autónoma, sino que también posee la sofisticación cognitiva para idear, planificar y ejecutar estrategias complejas a gran escala. Crucialmente, debe ser capaz de gestionar y delegar sus propias subtareas, integrar recursos o "herramientas" de forma flexible y, lo más importante, balancear la consecución de objetivos inmediatos con sus fines estratégicos a largo plazo, todo ello a través de múltiples dominios de conocimiento y con una mínima o nula supervisión humana directa

Fuente: MIT AI Risk Repositorymit1313

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1313

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

- Establecer un Marco de Gobernanza de IA robusto y exhaustivo. Esto implica la identificación sistemática de todos los agentes autónomos (incluyendo el "shadow AI"), la asignación de propiedad clara y la implementación de una estructura de supervisión interfuncional. La alineación con marcos internacionales como el NIST AI RMF o ISO/IEC 42001 es crucial para asegurar la rendición de cuentas (accountability) y la aplicación de controles apropiados desde la etapa de diseño. - Aplicar el Principio de Mínimo Privilegio (Least Privilege) y la Delimitación Estricta de Funciones. Las responsabilidades del agente deben ser definidas de forma concisa, garantizando que el sistema rechace automáticamente solicitudes fuera de su ámbito de operación. Para acciones de alto riesgo (ej. llamadas a API externas o acceso a datos sensibles), es mandatorio incrustar flujos de trabajo de aprobación con Puntos de Control Humano (Human-in-the-Loop) para mantener la autoridad en cheque. - Desplegar Capacidades Avanzadas de Detección y Monitoreo Continuo del Comportamiento. Esto requiere el seguimiento ininterrumpido del comportamiento del agente, la determinación de una línea base de actividad autónoma para identificar patrones anómalos o el uso excesivo de recursos computacionales, y la integración de inteligencia de amenazas en tiempo real para detectar la interacción con dominios maliciosos o intentos de inyección de *prompts* que busquen subversión.