Jailbreak en LLM - Ataque de Backdoor
Sin embargo, aún existen maneras de introducir 'agujeros' o vulnerabilidades en el conjunto de datos de entrenamiento. Esto logra que los Modelos de Lenguaje Grande (LLMs) parezcan seguros en promedio, pero que en realidad generen contenido perjudicial bajo condiciones específicas. Esta táctica se clasifica como un 'ataque de puerta trasera' (backdoor attack). Investigaciones, como la de Evan y colaboradores, han demostrado cómo un modelo con puerta trasera puede comportarse según lo esperado durante el entrenamiento, pero exhibir un comportamiento diferente y potencialmente dañino una vez desplegado. Los resultados son críticos: estas conductas ocultas han demostrado persistir, incluso después de aplicar múltiples técnicas de entrenamiento y refuerzo de seguridad.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1371
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de Protocolos Rigurosos de Integridad en la Fase de Pre-Despliegue Establecer mecanismos estrictos de control de calidad sobre los conjuntos de datos de entrenamiento (separación de entornos) para prevenir el envenenamiento de datos (Data Poisoning Attack, DPA). Se prioriza la aplicación de técnicas de Model Repairing, como el *pruning* de neuronas sospechosas o el *fine-tuning* sobre datos limpios, con el fin de neutralizar las activaciones maliciosas de la puerta trasera. 2. Despliegue de un *Framework* de Defensa en Tiempo de Ejecución (*Run-time*) Instaurar una defensa multi-capa mediante la sanitización de entradas y salidas. Esto incluye el uso de sistemas de filtrado de *prompts* (*LLM-Judge*) para la detección temprana de *triggers* o activaciones de *backdoor* maliciosas en la entrada, así como el filtrado de la generación (*CleanGen*) para asegurar que la respuesta final cumpla con las políticas de seguridad. 3. Establecimiento de un Programa de Evaluación Adversaria Continua (*Red Teaming*) Realizar pruebas de penetración y *prompt fuzzing* periódicas para descubrir y explotar proactivamente vulnerabilidades latentes de *backdoor* en modelos ya desplegados. Esta estrategia debe ir acompañada de una capacidad de monitoreo de *logs* y *rollbacks* rápidos ante la detección de anomalías o comportamientos no autorizados inducidos por el *trigger*.