Vulnerabilities arising from additional modalities in multimodal models
La incorporación de modalidades adicionales (como texto, imagen o audio) a los modelos de inteligencia artificial expande intrínsecamente su superficie de ataque. Esta multimodularidad no solo introduce vectores de ataque completamente nuevos, sino que también magnifica el potencial de amenazas preexistentes, que abarcan desde la elusión de restricciones de seguridad (conocida como jailbreaking) hasta el comprometimiento o envenenamiento de los datos de entrenamiento. La vulnerabilidad crítica reside en que las distintas modalidades operan con diferentes niveles de robustez, lo que permite a los actores maliciosos identificar y explotar la parte del modelo que demuestre la menor resistencia a la manipulación.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit1018
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. **Mejorar la Robustez Adversaria Intermodal:** Desarrollar e implementar entrenamiento adversario específico para sistemas multimodales y estrategias de fusión de datos adaptativas para garantizar un nivel de **robustez uniforme** en todas las modalidades (texto, visual, auditiva). Se debe priorizar la validación de la **coherencia intermodal** para prevenir ataques que exploten la modalidad con menor resistencia a la manipulación. 2. **Implementar *Guardrails* y Filtrado Específicos por Modalidad:** Establecer **protocolos de validación de entrada (guardrails)** de seguridad exhaustivos que sean intrínsecos a cada tipo de dato, incluyendo mecanismos para detectar **instrucciones maliciosas ocultas** (como texto inyectado en imágenes o audio). Esto es fundamental para mitigar vectores de ataque como el *jailbreaking* y la inyección de *prompts* a través de la superficie de ataque expandida. 3. **Establecer un Marco Integral de Seguridad y Monitoreo Continuo:** Instituir un marco de **gestión de riesgos** que documente rigurosamente las limitaciones, casos extremos y riesgos específicos de la integración multimodal. El marco debe exigir el **monitoreo post-despliegue** del comportamiento del modelo para identificar y mitigar proactivamente la deriva de rendimiento, los sesgos y los riesgos emergentes asociados a las nuevas capacidades multimodales.