Jailbreak de un modelo multimodal
Los modelos actuales de Inteligencia Artificial de Propósito General (IAPG) con capacidades multimodales —aquellos que procesan información en formatos diversos como visión y lenguaje— presentan una vulnerabilidad crítica ante los denominados ataques de jailbreak adversario. Estos ataques sofisticados permiten inducir automáticamente al modelo a producir resultados arbitrarios o específicamente solicitados con un alto índice de éxito. Es crucial destacar que las vulnerabilidades multimodales también pueden ser explotadas para la exfiltración de información sensible, como la ventana de contexto del modelo u otros datos internos de su arquitectura.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1014
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
- Implementación de Optimización Multimodal Conjunta: Desarrollar e integrar mecanismos de defensa avanzados basados en la optimización dinámica, como estrategias de entrenamiento conjunto, para maximizar la divergencia entre las respuestas del modelo y los contenidos maliciosos, reforzando la generalización contra ataques transmodales que explotan la fusión de datos (visuales y textuales) - Conducción de Ejercicios Adversariales Rigurosos (Red Teaming): Establecer un proceso continuo de pruebas adversariales (red teaming) y programas de divulgación de vulnerabilidades (bug bounty) para identificar proactivamente nuevas cepas de jailbreaks multimodales y vulnerabilidades en la interacción de diferentes entradas, facilitando una respuesta rápida antes de su explotación por actores maliciosos - Despliegue de Salvaguardas Adaptativas y Validación de Entradas: Reforzar las barreras de seguridad mediante la aplicación de técnicas de seguridad por diseño (security by design), incluyendo la validación y desinfección rigurosa de entradas en cada modalidad, y el desarrollo de defensas basadas en el comportamiento interno del modelo (como la defensa por límite de activación) para detectar y rechazar automáticamente prompts de elusión