2. Privacidad y Seguridad2 - Post-despliegue

Ataques adversarios transferibles (open a closed source)

La *transferibilidad* es un riesgo crítico. Un ataque adversario, desarrollado para un modelo completamente conocido (de código abierto y pesos visibles, un "ataque de caja blanca"), tiene la capacidad de **replicar su efectividad en modelos de código cerrado**. Esta brecha se produce a pesar de las defensas establecidas por el proveedor, como el acceso estructurado, y subraya que estas agresiones digitales pueden **generarse de forma totalmente automática** [238]

Fuente: MIT AI Risk Repositorymit1015

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1015

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. **Entrenamiento Adversario Sistemático** Aplicar un riguroso entrenamiento adversario que exponga el modelo a ejemplos manipulados, incluyendo aquellos generados a partir de modelos sustitutos de código abierto, durante la fase de desarrollo. Esto busca aumentar la solidez del modelo objetivo contra las vulnerabilidades inherentes que permiten la transferencia de ataques. 2. **Extracción Robusta de Características** Diseñar el sistema para enfocar la toma de decisiones en características robustas y semánticamente significativas, en lugar de en artefactos de bajo nivel superficiales que suelen ser explotados por las perturbaciones adversarias transferibles. Esto asegura que la predicción se base en la señal inherente del dato y no en el ruido transferido. 3. **Limitación de la Interfaz y Obfuscación de la Salida** Implementar límites estrictos en la tasa de consultas de la API y reducir la granularidad de la información proporcionada en las salidas del modelo (p. ej., abstenerse de devolver probabilidades o gradientes detallados). Estas medidas de seguridad limitan la capacidad de un adversario para refinar ataques de caja negra o mejorar la transferibilidad mediante la aproximación de gradientes.