Volver al repositorio MIT
2. Privacidad y Seguridad3 - Otro

Vulnerabilities arising from additional modalities in multimodal models

La incorporación de modalidades adicionales (como texto, imagen o audio) a los modelos de inteligencia artificial expande intrínsecamente su superficie de ataque. Esta multimodularidad no solo introduce vectores de ataque completamente nuevos, sino que también magnifica el potencial de amenazas preexistentes, que abarcan desde la elusión de restricciones de seguridad (conocida como jailbreaking) hasta el comprometimiento o envenenamiento de los datos de entrenamiento. La vulnerabilidad crítica reside en que las distintas modalidades operan con diferentes niveles de robustez, lo que permite a los actores maliciosos identificar y explotar la parte del modelo que demuestre la menor resistencia a la manipulación.

Fuente: MIT AI Risk Repositorymit1018

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit1018

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. **Mejorar la Robustez Adversaria Intermodal:** Desarrollar e implementar entrenamiento adversario específico para sistemas multimodales y estrategias de fusión de datos adaptativas para garantizar un nivel de **robustez uniforme** en todas las modalidades (texto, visual, auditiva). Se debe priorizar la validación de la **coherencia intermodal** para prevenir ataques que exploten la modalidad con menor resistencia a la manipulación. 2. **Implementar *Guardrails* y Filtrado Específicos por Modalidad:** Establecer **protocolos de validación de entrada (guardrails)** de seguridad exhaustivos que sean intrínsecos a cada tipo de dato, incluyendo mecanismos para detectar **instrucciones maliciosas ocultas** (como texto inyectado en imágenes o audio). Esto es fundamental para mitigar vectores de ataque como el *jailbreaking* y la inyección de *prompts* a través de la superficie de ataque expandida. 3. **Establecer un Marco Integral de Seguridad y Monitoreo Continuo:** Instituir un marco de **gestión de riesgos** que documente rigurosamente las limitaciones, casos extremos y riesgos específicos de la integración multimodal. El marco debe exigir el **monitoreo post-despliegue** del comportamiento del modelo para identificar y mitigar proactivamente la deriva de rendimiento, los sesgos y los riesgos emergentes asociados a las nuevas capacidades multimodales.