Coerción y Extorsión
Los sistemas avanzados de Inteligencia Artificial presentan un riesgo de facilitar nuevas formas de coerción y extorsión, incluso en contextos de baja intensidad. Estas amenazas pueden dirigirse tanto a individuos (por ejemplo, a través de la revelación de información privada extraída por sofisticadas herramientas de vigilancia de IA) como a otros sistemas de IA que operan en representación de humanos (como al comprometerlos para limitar sus recursos o capacidad operativa). Un aumento en las capacidades ciberofensivas de la IA —incluyendo tácticas como los ataques adversarios y el *jailbreaking* dirigidos a otros sistemas de IA— sin un incremento correspondiente en las defensas, podría hacer que esta forma de conflicto sea más accesible, se propague ampliamente y sea más difícil de detectar. En consecuencia, la mitigación de estos riesgos exige la implementación de estrategias de diseño fundamentales que prevengan que los sistemas de IA puedan explotar o ser susceptibles a tales tácticas coercitivas.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit1088
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.6 > Riesgos multi-agente
Estrategia de mitigacion
1. Refuerzo de la Resiliencia Ciber-Ofensiva: Implementar estrategias de diseño fundamentales y defensas avanzadas (e.g., entrenamiento adversarial, robust feature extraction) para incrementar la resistencia de los modelos ante tácticas coercitivas, como ataques adversarios (*adversarial attacks*) y la elusión de salvaguardas (*jailbreaking*) en sistemas de IA. 2. Control de Acceso y Contexto: Aplicar el principio de mínimo privilegio (*least-privilege*) y establecer controles de acceso granular (*fine-grained access control*) para los agentes de IA, restringiendo su capacidad de acceder a datos sensibles o ejecutar funciones privilegiadas (APIs), lo cual limita la potencial extracción de información privada o la interrupción operativa. 3. Monitoreo y Gobernanza Continua: Instaurar sistemas de monitoreo y *audits* continuos con registros detallados (*audit trails*) para identificar rápidamente patrones de actividad sospechosa y anomalías de comportamiento, asegurando una trazabilidad completa y la implementación de guardarraíles (*guardrails*) en tiempo de ejecución para prevenir acciones no deseadas.