4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Facilitación de fraude, estafas y manipulación más dirigida

El uso de la predicción de los Modelos de Lenguaje (ML) tiene el potencial de incrementar la eficacia de crímenes como las estafas por correo electrónico, lo que a su vez puede generar daños financieros y psicológicos significativos. Si bien estos modelos no disminuyen el costo logístico del envío masivo de correos fraudulentos, que ya es muy bajo, su valor reside en la capacidad de generar textos más personalizados y persuasivos a gran escala, o en mantener interacciones convincentes con la víctima a lo largo de múltiples intercambios, elevando así la tasa de éxito de las estafas.

Fuente: MIT AI Risk Repositorymit246

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit246

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Implementación de sistemas de filtrado y moderación de contenido de salida para identificar y bloquear proactivamente la generación de textos fraudulentos, lenguaje persuasivo malicioso o intentos de suplantación de identidad vocal o escrita a escala, utilizando clasificadores avanzados y revisión humana para contenidos de alto riesgo. 2. Establecimiento de controles de acceso rigurosos y políticas de minimización de datos para limitar el uso de conjuntos de datos sensibles o de habla/escritura individual para el ajuste fino (*finetuning*) del modelo, previniendo así la capacidad de suplantación de identidad dirigida en esquemas de fraude. 3. Realización de pruebas adversariales (*Red Teaming*) y auditorías de seguridad periódicas para exponer al modelo a escenarios simulados de fraude e ingeniería social, asegurando que las salvaguardas internas no puedan ser eludidas para generar contenido malicioso y convincente.

EVIDENCIA ADICIONAL

Los Modelos de Lenguaje (ML) tienen la capacidad de ser ajustados (finetuned) utilizando datos de voz previos de un individuo para suplantar su identidad de manera convincente. Esta suplantación de identidad vocal constituye un vector de ataque para estafas altamente personalizadas, donde actores maliciosos pueden solicitar, por ejemplo, asistencia financiera o información personal, haciéndose pasar por un colega o un familiar de la víctima. Este riesgo se intensificaría significativamente si el modelo pudiera ser entrenado no solo en la voz, sino también en el estilo de escritura particular de una persona (obtenido, por ejemplo, de su historial de chat) y lograr emularlo con éxito.