Deshonestidad - Acoso dirigido
Los Modelos de Lenguaje Grande (LLM) permiten la implementación de campañas dirigidas a individuos en el entorno digital, facilitando el envío masivo de mensajes sumamente personalizados y de naturaleza perjudicial para el destinatario.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit671
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.3 > Fraude, estafas y manipulación dirigida
Estrategia de mitigacion
1. Implementar salvaguardas técnicas robustas y multimodales (guardrails) mediante el uso de modelos de clasificación contextual avanzados y el ajuste fino del modelo (e.g., RLHF) para prevenir proactivamente la generación de contenido perjudicial o de discurso de odio altamente personalizado, abordando las técnicas de evasión de filtros (*jailbreaking*). 2. Desarrollar e integrar sistemas de monitoreo y auditoría en tiempo real para la detección inmediata de patrones de *prompting* sospechoso y la identificación de salida tóxica, aplicando mecanismos de respuesta graduada como la limitación de velocidad (*rate limiting*), el bloqueo de respuesta, o la generación de respuestas señuelo (*decoy responses*). 3. Establecer un programa continuo de *Red Teaming* (simulación de ataques adversariales) enfocado en identificar y mitigar las vulnerabilidades de la interacción multi-turno y las estrategias de manipulación que podrían permitir a actores maliciosos eludir las restricciones de seguridad para escalar el acoso.