Facilitación de fraude, estafa y manipulación dirigida
Riesgo anticipado: Los Modelos de Lenguaje (LMs) podrían utilizarse para potenciar la eficiencia y efectividad de las actividades delictivas
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit219
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.3 > Fraude, estafas y manipulación dirigida
Estrategia de mitigacion
1. Implementación de Mecanismos de Control de *Prompt* y Salida Rigurosos Establecer protocolos de seguridad en las fases de preprocesamiento e in-processing, que incluyan la sanitización de *prompts* para neutralizar instrucciones maliciosas (como *jailbreaking* e inyección de *prompt*), y el uso de modelos de salvaguardia para monitorizar las salidas del Modelo de Lenguaje (LLM), asegurando que el contenido generado cumple con los estándares de seguridad y ética predefinidos. 2. Desarrollo de Sistemas de Detección de Fraude Adaptativos en Tiempo Real Desplegar arquitecturas de detección de fraude basadas en *Machine Learning* y *Deep Learning* (como modelos *Transformer* o estrategias de *prompting* multi-rol) para aprovechar la capacidad de los LLMs en el razonamiento contextual. Estos sistemas deben centrarse en la identificación inmediata de patrones de actividad delictiva, el análisis de redes anómalas y el aprendizaje continuo para adaptarse a las tácticas de fraude en constante evolución. 3. Aplicación de Controles de Acceso y Técnicas de Preservación de la Privacidad Integrar una sólida gobernanza de seguridad que establezca el principio de *Zero Trust* para la interacción del LLM con sistemas *backend* (como APIs y bases de datos). Esto debe complementarse con la aplicación de técnicas de preservación de la privacidad (p. ej., *differential privacy*) y controles de acceso robustos para proteger los datos sensibles y limitar la exposición en casos de fuga de información o suplantación de identidad.
EVIDENCIA ADICIONAL
Un ejemplo concreto es el riesgo de suplantación de identidad: los Modelos de Lenguaje podrían ser ajustados con datos históricos de voz de un individuo, permitiendo la generación de audios sintéticos indistinguibles que faciliten el robo de identidad.