2. Privacidad y Seguridad2 - Post-despliegue

Limitaciones en robustez adversaria

La Inteligencia Artificial Adversaria (IAA), o *Adversarial Machine Learning*, es un área fundamental de la seguridad de la IA centrada en la **robustez** de los sistemas de aprendizaje automático. El concepto describe la manipulación intencionada de estos modelos mediante el uso de **ejemplos adversarios**: entradas de datos que han sido sutilmente modificadas (con alteraciones casi imperceptibles para un observador humano) pero que están diseñadas matemáticamente para explotar las vulnerabilidades del modelo, forzándolo a emitir predicciones o decisiones incorrectas. En la práctica, la IAA compromete la integridad del modelo, ya sea corrompiendo su proceso de entrenamiento (*ataques de envenenamiento*) o engañándolo en la etapa de inferencia (*ataques de evasión*), poniendo en riesgo la fiabilidad y la seguridad de los sistemas de IA en aplicaciones críticas.

Fuente: MIT AI Risk Repositorymit955

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit955

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Entrenamiento Adversario Robusto y Certificado: Implementar metodologías avanzadas de *Adversarial Training* (Entrenamiento Adversario) para aumentar la robustez intrínseca del modelo. Esto implica la generación sistemática de ejemplos adversarios durante la fase de entrenamiento y el empleo de técnicas de certificación formal de robustez (e.g., verificación de propiedades) para cuantificar y garantizar el nivel de resistencia del modelo ante manipulaciones específicas y conocidas. 2. Mecanismos de Detección y Saneamiento de Entradas: Desplegar módulos de pre-procesamiento de entradas en la etapa de inferencia para identificar y neutralizar perturbaciones adversarias antes de que alcancen el modelo. Esto puede incluir la aplicación de técnicas como *Feature Squeezing* o el desarrollo de modelos de detección de anomalías dedicados para descartar ejemplos con alta probabilidad de ser maliciosos (ataques de evasión). 3. Monitoreo Continuo de la Integridad del Modelo y Verificación de Despliegue: Establecer un sistema de monitoreo en tiempo real para rastrear métricas clave de desempeño y detectar desviaciones significativas en las distribuciones de entrada/salida (*data drift* o *model drift*), que puedan indicar un ataque de evasión o el éxito de un ataque de envenenamiento diferido. Dicho monitoreo debe complementarse con procesos de re-verificación periódica de la robustez en el entorno operativo.