2. Privacidad y Seguridad2 - Post-despliegue

Atacar LLMs vía Modalidades Adicionales

Los Modelos de Lenguaje Grandes (LLM) han trascendido el texto, incorporando la capacidad de procesar otras modalidades como imágenes o fotogramas de vídeo. Esta multimodalidad introduce nuevos riesgos en el ámbito de la seguridad de la inteligencia artificial. Por un lado, se ha comprobado que los ataques basados en gradientes contra estos modelos son sencillos y altamente eficaces. Estos métodos manipulan las imágenes de entrada mediante una codificación específica con el fin de obtener resultados no deseados. Por otro lado, modelos como GPT-4Vision son vulnerables a ataques de 'jailbreak' (elusión de restricciones de seguridad) y de exfiltración de datos mediante medios considerablemente más simples. Esto incluye la incrustación de texto de 'jailbreaking' directamente en el contenido visual de una imagen. Un vector de ataque especialmente sutil es la inyección de *prompt* indirecta: el atacante puede ocultar una instrucción maliciosa en la imagen utilizando colores o fuentes apenas perceptibles, o incluso a través de modalidades alternativas que el modelo puede interpretar, como el sistema Braille.

Fuente: MIT AI Risk Repositorymit1360

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1360

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Reforzamiento del Filtrado Multimodal y la Desinfección de Entradas: Implementar una capa robusta de validación y saneamiento de entradas que inspeccione todas las modalidades de datos (texto, imágenes, Braille) antes de su procesamiento por el LLM. Esta estrategia debe incluir técnicas de codificación (*escaping*) para neutralizar instrucciones maliciosas incrustadas y el desarrollo de filtros específicos para detectar contenido adversario sutil en formatos no textuales. 2. Evaluación Adversarial Continua y Reforzamiento del Modelo (Red Teaming): Establecer programas de pruebas adversariales de forma continua (*Red Teaming*) para simular ataques de *jailbreak* y *prompt injection* que exploten las vulnerabilidades multimodales y de contexto. Los resultados deben informar los ciclos de mejora del modelo, particularmente el *afinamiento* (como RLHF o entrenamiento adversarial) con conjuntos de datos robustos para aumentar la resistencia intrínseca a nuevas técnicas de ataque. 3. Despliegue de un Marco de Defensa en Capas y Análisis de Intención: Adoptar un enfoque de seguridad de confianza cero donde el LLM sea tratado como un componente que requiere validación. Esto implica integrar *guardrails* de seguridad (filtros de contenido) y mecanismos de análisis de intención (ej. IAPrompt) que utilicen LLMs secundarios o agentes para evaluar la naturaleza de la solicitud. Además, se debe validar la salida del LLM antes de permitirle impulsar cualquier función del sistema *backend*.