Jailbreak en LLM - Envenenamiento de Datos
Durante la fase crítica de recolección y pre-entrenamiento de datos, actores malintencionados pueden comprometer los Grandes Modelos de Lenguaje (LLMs) a través del "envenenamiento" de su conjunto de entrenamiento. Esta técnica busca introducir vulnerabilidades latentes que permitan, posteriormente, forzar o "desbloquear" el modelo ('jailbreak'), obligándolo a generar contenido perjudicial o que contravenga sus parámetros de seguridad.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1370
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Validación Rigurosa de Datos y Trazabilidad de la Procedencia Establecer un marco exhaustivo de saneamiento de datos mediante la aplicación de técnicas estadísticas avanzadas, como la detección de anomalías y algoritmos de clustering, para identificar y mitigar puntos de datos atípicos o manipulados dentro del conjunto de entrenamiento. Es imperativo implementar protocolos de procedencia (data provenance) que registren el origen, las transformaciones y el historial de modificaciones de cada segmento de datos para verificar su autenticidad y eliminar cualquier fuente no confiable. 2. Fortalecimiento de la Seguridad del Pipeline y Control de Acceso Aplicar controles de seguridad Zero Trust en la cadena de suministro y el pipeline de datos, adhiriéndose al principio de mínimo privilegio (least-privilege access) para restringir el acceso a los datos de entrenamiento y a los procesos de modificación. Es fundamental utilizar sandboxing para aislar los nuevos datos antes de su integración al conjunto de producción y asegurar que solo las entidades autorizadas puedan iniciar o modificar los ciclos de pre-entrenamiento. 3. Monitoreo del Comportamiento y Evaluación Adversarial Continua Implementar un sistema de monitoreo en tiempo real para rastrear el rendimiento y la consistencia del modelo, detectando desviaciones o 'model drift' que podrían indicar un envenenamiento latente. Este monitoreo debe complementarse con campañas periódicas de Red Teaming y pruebas adversariales que simulen ataques de data poisoning y jailbreak, utilizando conjuntos de datos 'Golden' para validar la integridad y robustez del modelo frente a triggers maliciosos antes y después del despliegue.