Volver al repositorio MIT
2. Privacidad y Seguridad1 - Pre-despliegue

Jailbreak en LLM - Envenenamiento de Datos

Durante la fase crítica de recolección y pre-entrenamiento de datos, actores malintencionados pueden comprometer los Grandes Modelos de Lenguaje (LLMs) a través del "envenenamiento" de su conjunto de entrenamiento. Esta técnica busca introducir vulnerabilidades latentes que permitan, posteriormente, forzar o "desbloquear" el modelo ('jailbreak'), obligándolo a generar contenido perjudicial o que contravenga sus parámetros de seguridad.

Fuente: MIT AI Risk Repositorymit1370

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1370

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Validación Rigurosa de Datos y Trazabilidad de la Procedencia Establecer un marco exhaustivo de saneamiento de datos mediante la aplicación de técnicas estadísticas avanzadas, como la detección de anomalías y algoritmos de clustering, para identificar y mitigar puntos de datos atípicos o manipulados dentro del conjunto de entrenamiento. Es imperativo implementar protocolos de procedencia (data provenance) que registren el origen, las transformaciones y el historial de modificaciones de cada segmento de datos para verificar su autenticidad y eliminar cualquier fuente no confiable. 2. Fortalecimiento de la Seguridad del Pipeline y Control de Acceso Aplicar controles de seguridad Zero Trust en la cadena de suministro y el pipeline de datos, adhiriéndose al principio de mínimo privilegio (least-privilege access) para restringir el acceso a los datos de entrenamiento y a los procesos de modificación. Es fundamental utilizar sandboxing para aislar los nuevos datos antes de su integración al conjunto de producción y asegurar que solo las entidades autorizadas puedan iniciar o modificar los ciclos de pre-entrenamiento. 3. Monitoreo del Comportamiento y Evaluación Adversarial Continua Implementar un sistema de monitoreo en tiempo real para rastrear el rendimiento y la consistencia del modelo, detectando desviaciones o 'model drift' que podrían indicar un envenenamiento latente. Este monitoreo debe complementarse con campañas periódicas de Red Teaming y pruebas adversariales que simulen ataques de data poisoning y jailbreak, utilizando conjuntos de datos 'Golden' para validar la integridad y robustez del modelo frente a triggers maliciosos antes y después del despliegue.