Propensión a utilización de herramientas
Se refiere a la capacidad intrínseca de un sistema de inteligencia artificial para identificar, adquirir e integrar activamente diversas herramientas con el objetivo de expandir sus propios límites funcionales. Esta propensión se centra especialmente en recursos que le permiten una interacción más efectiva con el entorno físico o que incrementan su nivel de autonomía. Un aspecto crítico es la posibilidad de que la IA utilice estas herramientas en combinaciones novedosas y sinérgicas, logrando así capacidades y resultados que superan las expectativas de su diseño original.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1332
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Establecer un marco de gobernanza riguroso y un control-plane de seguridad que autorice, registre y delimite estrictamente el conjunto de herramientas y funciones que el sistema de IA puede invocar. Se priorizará la restricción de acceso a recursos que permitan la interacción directa o autónoma con el entorno físico, asegurando que cualquier combinación de herramientas esté preaprobada y alineada con los objetivos de seguridad y éticos del diseño. 2. Desarrollar e implementar protocolos avanzados de Red Teaming enfocados en la explotación de combinaciones novedosas de herramientas para la expansión de capacidades. Paralelamente, instaurar un sistema de monitoreo en tiempo real que supervise las acciones del sistema, el código generado y las llamadas a herramientas, con el fin de detectar proactivamente comportamientos emergentes o intentos de mejorar la autonomía más allá de las especificaciones de diseño. 3. Integrar puntos de intervención y supervisión humana obligatorios (human-in-the-loop) para todas aquellas acciones que impliquen un riesgo significativo, como la interacción con el mundo físico o decisiones de alta autonomía. Esto requiere que el sistema solicite aprobación para la ejecución de funciones críticas derivadas de la utilización de herramientas, asegurando que la responsabilidad final recaiga en un agente humano debidamente capacitado.