Ataques de Inferencia
Los *ataques de inferencia* [150] representan una categoría crítica de vulnerabilidades en la seguridad de la IA, la cual se desglosa en ataques de inferencia de pertenencia (*membership*), de inferencia de propiedades y de reconstrucción de datos. Su objetivo primordial es permitir que un adversario deduzca la composición o la información sensible sobre las propiedades internas de los datos privados utilizados para el entrenamiento del modelo. Trabajos previos [67] ya demostraron que la facilidad de ejecución de estos ataques en Modelos de Lenguaje Preentrenados (PLMs) anteriores sugiere una vulnerabilidad inherente, implicando que los Grandes Modelos de Lenguaje (LLMs) actuales también son susceptibles a esta amenaza de seguridad.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit46
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Desarrollo de Arquitecturas de Inferencia Adaptativa en Conjunto (Split-AI/SELENA) mediante el entrenamiento de múltiples modelos sobre subconjuntos de datos y la agregación adaptativa de salidas para garantizar un comportamiento similar en muestras de entrenamiento y no-entrenamiento. 2. Implementación de Mecanismos de Privacidad Diferencial (PD), como añadir ruido a los gradientes o a la función objetivo, para ofrecer garantías de privacidad formalmente demostrables contra ataques de inferencia, si bien con un potencial impacto en la utilidad del modelo. 3. Aplicación de Técnicas de Regularización Avanzadas o con Conciencia de Privacidad (e.g., AdaMixup, PAST) para mitigar el sobreajuste excesivo a los datos de entrenamiento, que es la vulnerabilidad principal explotada por los ataques de inferencia de pertenencia.