Training-related (Robustness certificates can be exploited to attack the models)
El conocimiento preciso de los certificados de robustez de un modelo —es decir, la delimitación exacta de la región en el espacio de entrada donde sus predicciones están matemáticamente garantizadas como estables— proporciona una ventaja estratégica crítica al adversario. Esta transparencia permite al atacante optimizar la elaboración de perturbaciones maliciosas que fracasan por poco dentro de la zona certificada, pero que logran evadir la robustez del modelo con alta eficiencia justo en la periferia o el límite exterior de dicha región garantizada.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit979
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Priorizar la investigación y adopción de metodologías que generen certificados de robustez más precisos y menos conservadores (ej. certificados basados en curvatura o de segundo orden), con el fin de estrechar el margen explotable entre la región certificada y la frontera de decisión real del modelo. 2. Integrar las métricas de certificación de robustez (ej. radio certificado o distorsión adversaria mínima) directamente en el proceso de entrenamiento y defensa del modelo, aplicando estrategias como el entrenamiento adversario ponderado para reforzar proactivamente las regiones y ejemplos de entrada con menor garantía de robustez. 3. Implementar técnicas de certificación que mitiguen la precisión del conocimiento del adversario, tales como el suavizado aleatorio (randomized smoothing) para ofuscar la frontera de decisión o los certificados de robustez colectiva para tareas con múltiples predicciones en una única entrada.