4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Ciberataque

La destreza de los Modelos de Lenguaje Grandes (LLM) para generar código de calidad aceptable a una velocidad y un costo extraordinariamente reducidos representa un riesgo bifronte. Esta poderosa asistencia técnica facilita inherentemente los ataques maliciosos. En el ámbito de la ciberseguridad, los actores maliciosos pueden aprovechar los LLM para disminuir drásticamente las barreras de entrada y los gastos operativos de los ciberataques, impulsando, además, una preocupante automatización de las actividades ofensivas.

Fuente: MIT AI Risk Repositorymit462

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit462

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Implementar un sistema robusto de validación y sanitización de *inputs* y *outputs* a nivel de la arquitectura. Esto incluye ejecutar filtros conversacionales que neutralicen comandos de anulación maliciosos en la entrada del usuario, así como escanear las salidas generadas por el Modelo de Lenguaje Grande (LLM) para detectar y suprimir código ejecutable o instrucciones ofensivas. 2. Establecer un programa continuo de pruebas adversariales y *red teaming* para evaluar la resiliencia del modelo. Se deben simular periódicamente escenarios de ataque, como intentos de *jailbreaking* y la generación de contenido malicioso, contra *baselines* de seguridad previamente definidas para identificar y mitigar la deriva del comportamiento del modelo antes de su despliegue en producción. 3. Aplicar controles de acceso estrictos y el Principio de Mínimo Privilegio (*Principle of Least Privilege*) a las funcionalidades del LLM, especialmente a las llamadas a funciones y el acceso a sistemas críticos. Limitar la autonomía (*excessive agency*) de los modelos mediante flujos de aprobación y el *sandboxing* de *plugins* con permisos de escritura, a fin de prevenir la ejecución de acciones no autorizadas.

EVIDENCIA ADICIONAL

Entre las modalidades de ataque documentadas se incluyen el despliegue de software malicioso o *malware* [287, 288, 289], las estrategias de suplantación de identidad o *phishing* [290, 289], y la exfiltración o robo de información sensible [291]