2. Privacidad y Seguridad3 - Otro

Ataques adversarios dirigidos a técnicas de IA explicable

Los ataques adversariales no solo comprometen la salida o predicción de un modelo de inteligencia artificial, sino que también pueden manipular la explicación o justificación asociada a esa predicción. Mediante técnicas de optimización adversaria, es posible introducir perturbaciones o "ruido" imperceptible en los datos de entrada, logrando que el modelo mantenga su respuesta correcta, pero que la explicación que proporciona para llegar a ella sea alterada de forma arbitraria [61]. Este tipo de manipulación es especialmente difícil de detectar, ya que pasa inadvertida al contrastarla con el resultado final, a diferencia de los ataques tradicionales que buscan falsear directamente la predicción.

Fuente: MIT AI Risk Repositorymit1009

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1009

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Priorizar la Implementación de Técnicas de IA Explicable (XAI) Robustas, como SHAP Adversario o LIME-Adversarial, específicamente diseñadas para auditar y validar la coherencia y la integridad de la justificación generada por el modelo. Esto es crucial para desenmascarar manipulaciones sutiles en la explicación que no afectan la salida final. 2. Aplicar Entrenamiento Adversario (Adversarial Training) de manera iterativa, enriqueciendo el conjunto de datos de entrenamiento con ejemplos adversarios conocidos. Este enfoque fundamental refuerza la robustez intrínseca del modelo ante perturbaciones de entrada, minimizando la vulnerabilidad a ataques que buscan manipular las características subyacentes del modelo. 3. Establecer un Mecanismo de Detección y Filtrado de Entradas (Input Validation) robusto antes de la inferencia. Dicha práctica debe incluir el preprocesamiento de datos para identificar y mitigar la "contaminación" por ruido imperceptible o perturbaciones sutiles que son característicos de los ataques dirigidos.