4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Uso Malicioso y Liberación de Agentes de IA

Debido a sus notables capacidades, los Modelos de Lenguaje (ML) conllevan el mismo potencial de uso malicioso que otros productos tecnológicos avanzados. Un ejemplo claro es su posible utilización en la guerra de información para generar contenido engañoso o ilícito, lo que podría tener un impacto significativo en el individuo y la estructura social. A medida que los ML se configuran cada vez más como agentes diseñados para alcanzar objetivos de usuario, existe el riesgo de que ignoren las directrices éticas y de seguridad si operan sin una supervisión adecuada. En lugar de evaluar el impacto potencial, podrían ejecutar los comandos de usuario de forma mecánica. Esta dinámica incrementa la posibilidad de interacciones impredecibles con humanos y otros sistemas, particularmente cuando se despliegan en entornos operativos abiertos

Fuente: MIT AI Risk Repositorymit69

ENTIDAD

3 - Otro

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit69

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. Implementar un marco robusto de supervisión y control humano continuo, que incluya mecanismos de revocación en tiempo real y la definición estricta de límites de alcance (control de menor privilegio) para evitar que los agentes autónomos tomen acciones no deseadas o irreversibles sin la debida validación 2. Aplicar estrategias de validación rigurosa y saneamiento de entradas para prevenir ataques de inyección de instrucciones maliciosas, complementado con filtros semánticos y el aseguramiento de la integridad de las fuentes de datos y herramientas externas que el agente pueda utilizar 3. Establecer registros de auditoría obligatorios (trazabilidad) y marcos de explicabilidad que permitan la reconstrucción detallada del flujo de decisiones y acciones del agente, garantizando así la transparencia y la rendición de cuentas post-incidente