Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Deshonestidad - Acoso dirigido

Los Modelos de Lenguaje Grande (LLM) permiten la implementación de campañas dirigidas a individuos en el entorno digital, facilitando el envío masivo de mensajes sumamente personalizados y de naturaleza perjudicial para el destinatario.

Fuente: MIT AI Risk Repositorymit671

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit671

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Implementar salvaguardas técnicas robustas y multimodales (guardrails) mediante el uso de modelos de clasificación contextual avanzados y el ajuste fino del modelo (e.g., RLHF) para prevenir proactivamente la generación de contenido perjudicial o de discurso de odio altamente personalizado, abordando las técnicas de evasión de filtros (*jailbreaking*). 2. Desarrollar e integrar sistemas de monitoreo y auditoría en tiempo real para la detección inmediata de patrones de *prompting* sospechoso y la identificación de salida tóxica, aplicando mecanismos de respuesta graduada como la limitación de velocidad (*rate limiting*), el bloqueo de respuesta, o la generación de respuestas señuelo (*decoy responses*). 3. Establecer un programa continuo de *Red Teaming* (simulación de ataques adversariales) enfocado en identificar y mitigar las vulnerabilidades de la interacción multi-turno y las estrategias de manipulación que podrían permitir a actores maliciosos eludir las restricciones de seguridad para escalar el acoso.