Uso malicioso y abuso (cibercrimen)
Las capacidades avanzadas y la disponibilidad masiva de los modelos de IA generativa permiten a actores maliciosos llevar a cabo actividades perjudiciales con una eficiencia y una escala sin precedentes, lo que reduce drásticamente sus costes operativos. Específicamente, los ciberdelincuentes tienen la capacidad de eludir las salvaguardias o realizar un "jailbreak" a las herramientas de IA para generar contenido sensible y nocivo. De forma complementaria, estos modelos pueden ser explotados para la creación de material altamente persuasivo y personalizado, diseñado de manera estratégica para manipular a un individuo o a una audiencia masiva.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit682
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.3 > Fraude, estafas y manipulación dirigida
Estrategia de mitigacion
Prioridad 1: Implementar un marco robusto de gobernanza y supervisión continua del modelo, incluyendo técnicas de entrenamiento adversarial, para identificar, mitigar y bloquear activamente intentos de eludir las salvaguardias ("jailbreaking") y la generación de contenido sensible o nocivo. Prioridad 2: Establecer políticas rigurosas de control de acceso y "higiene de *prompts*" para diferenciar entre herramientas de IA aprobadas y públicas, prohibiendo explícitamente la introducción de datos confidenciales o personales para prevenir fugas de información explotables en ataques personalizados. Prioridad 3: Desarrollar programas integrales de capacitación y concientización para el personal, enfocados en el reconocimiento y la validación crítica de amenazas avanzadas de ingeniería social potenciadas por IA (p. ej., *deepfakes* y *phishing* personalizado), mitigando así la vulnerabilidad del factor humano.