Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Coerción y Extorsión

Los sistemas avanzados de Inteligencia Artificial presentan un riesgo de facilitar nuevas formas de coerción y extorsión, incluso en contextos de baja intensidad. Estas amenazas pueden dirigirse tanto a individuos (por ejemplo, a través de la revelación de información privada extraída por sofisticadas herramientas de vigilancia de IA) como a otros sistemas de IA que operan en representación de humanos (como al comprometerlos para limitar sus recursos o capacidad operativa). Un aumento en las capacidades ciberofensivas de la IA —incluyendo tácticas como los ataques adversarios y el *jailbreaking* dirigidos a otros sistemas de IA— sin un incremento correspondiente en las defensas, podría hacer que esta forma de conflicto sea más accesible, se propague ampliamente y sea más difícil de detectar. En consecuencia, la mitigación de estos riesgos exige la implementación de estrategias de diseño fundamentales que prevengan que los sistemas de IA puedan explotar o ser susceptibles a tales tácticas coercitivas.

Fuente: MIT AI Risk Repositorymit1088

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit1088

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Refuerzo de la Resiliencia Ciber-Ofensiva: Implementar estrategias de diseño fundamentales y defensas avanzadas (e.g., entrenamiento adversarial, robust feature extraction) para incrementar la resistencia de los modelos ante tácticas coercitivas, como ataques adversarios (*adversarial attacks*) y la elusión de salvaguardas (*jailbreaking*) en sistemas de IA. 2. Control de Acceso y Contexto: Aplicar el principio de mínimo privilegio (*least-privilege*) y establecer controles de acceso granular (*fine-grained access control*) para los agentes de IA, restringiendo su capacidad de acceder a datos sensibles o ejecutar funciones privilegiadas (APIs), lo cual limita la potencial extracción de información privada o la interrupción operativa. 3. Monitoreo y Gobernanza Continua: Instaurar sistemas de monitoreo y *audits* continuos con registros detallados (*audit trails*) para identificar rápidamente patrones de actividad sospechosa y anomalías de comportamiento, asegurando una trazabilidad completa y la implementación de guardarraíles (*guardrails*) en tiempo de ejecución para prevenir acciones no deseadas.