Ciberataque
La destreza de los Modelos de Lenguaje Grandes (LLM) para generar código de calidad aceptable a una velocidad y un costo extraordinariamente reducidos representa un riesgo bifronte. Esta poderosa asistencia técnica facilita inherentemente los ataques maliciosos. En el ámbito de la ciberseguridad, los actores maliciosos pueden aprovechar los LLM para disminuir drásticamente las barreras de entrada y los gastos operativos de los ciberataques, impulsando, además, una preocupante automatización de las actividades ofensivas.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit462
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.2 > Ciberataques, desarrollo o uso de armas y daño masivo
Estrategia de mitigacion
1. Implementar un sistema robusto de validación y sanitización de *inputs* y *outputs* a nivel de la arquitectura. Esto incluye ejecutar filtros conversacionales que neutralicen comandos de anulación maliciosos en la entrada del usuario, así como escanear las salidas generadas por el Modelo de Lenguaje Grande (LLM) para detectar y suprimir código ejecutable o instrucciones ofensivas. 2. Establecer un programa continuo de pruebas adversariales y *red teaming* para evaluar la resiliencia del modelo. Se deben simular periódicamente escenarios de ataque, como intentos de *jailbreaking* y la generación de contenido malicioso, contra *baselines* de seguridad previamente definidas para identificar y mitigar la deriva del comportamiento del modelo antes de su despliegue en producción. 3. Aplicar controles de acceso estrictos y el Principio de Mínimo Privilegio (*Principle of Least Privilege*) a las funcionalidades del LLM, especialmente a las llamadas a funciones y el acceso a sistemas críticos. Limitar la autonomía (*excessive agency*) de los modelos mediante flujos de aprobación y el *sandboxing* de *plugins* con permisos de escritura, a fin de prevenir la ejecución de acciones no autorizadas.
EVIDENCIA ADICIONAL
Entre las modalidades de ataque documentadas se incluyen el despliegue de software malicioso o *malware* [287, 288, 289], las estrategias de suplantación de identidad o *phishing* [290, 289], y la exfiltración o robo de información sensible [291]