Volver al repositorio MIT
2. Privacidad y Seguridad1 - Pre-despliegue

Jailbreak en LLM - Ataque de Backdoor

Sin embargo, aún existen maneras de introducir 'agujeros' o vulnerabilidades en el conjunto de datos de entrenamiento. Esto logra que los Modelos de Lenguaje Grande (LLMs) parezcan seguros en promedio, pero que en realidad generen contenido perjudicial bajo condiciones específicas. Esta táctica se clasifica como un 'ataque de puerta trasera' (backdoor attack). Investigaciones, como la de Evan y colaboradores, han demostrado cómo un modelo con puerta trasera puede comportarse según lo esperado durante el entrenamiento, pero exhibir un comportamiento diferente y potencialmente dañino una vez desplegado. Los resultados son críticos: estas conductas ocultas han demostrado persistir, incluso después de aplicar múltiples técnicas de entrenamiento y refuerzo de seguridad.

Fuente: MIT AI Risk Repositorymit1371

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1371

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Protocolos Rigurosos de Integridad en la Fase de Pre-Despliegue Establecer mecanismos estrictos de control de calidad sobre los conjuntos de datos de entrenamiento (separación de entornos) para prevenir el envenenamiento de datos (Data Poisoning Attack, DPA). Se prioriza la aplicación de técnicas de Model Repairing, como el *pruning* de neuronas sospechosas o el *fine-tuning* sobre datos limpios, con el fin de neutralizar las activaciones maliciosas de la puerta trasera. 2. Despliegue de un *Framework* de Defensa en Tiempo de Ejecución (*Run-time*) Instaurar una defensa multi-capa mediante la sanitización de entradas y salidas. Esto incluye el uso de sistemas de filtrado de *prompts* (*LLM-Judge*) para la detección temprana de *triggers* o activaciones de *backdoor* maliciosas en la entrada, así como el filtrado de la generación (*CleanGen*) para asegurar que la respuesta final cumpla con las políticas de seguridad. 3. Establecimiento de un Programa de Evaluación Adversaria Continua (*Red Teaming*) Realizar pruebas de penetración y *prompt fuzzing* periódicas para descubrir y explotar proactivamente vulnerabilidades latentes de *backdoor* en modelos ya desplegados. Esta estrategia debe ir acompañada de una capacidad de monitoreo de *logs* y *rollbacks* rápidos ante la detección de anomalías o comportamientos no autorizados inducidos por el *trigger*.