Entrada adversaria
El concepto de Entradas Adversarias, crucial en la seguridad de la Inteligencia Artificial, describe una técnica por la cual se manipulan los datos de entrada individuales de un modelo con el fin específico de provocar su mal funcionamiento o un error de clasificación. Lo que distingue a estas modificaciones es su naturaleza sigilosa: son alteraciones mínimas, a menudo imperceptibles para el ojo humano, que explotan las debilidades o la lógica interna del modelo de toma de decisiones. Este tipo de ataque es transversal y no se limita al texto, sino que se extiende a datos sensoriales como imágenes, audio o vídeo. El ejemplo canónico es la alteración de apenas unos pocos píxeles en una imagen de un panda, lo que induce al modelo de clasificación a etiquetar esa imagen, con una alta convicción errónea, como un gibón. Este fenómeno expone una brecha fundamental en la robustez de los modelos de IA frente a perturbaciones sutiles.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1133
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. **Entrenamiento Adversario (Adversarial Training)** Mejorar la robustez intrínseca del modelo mediante el aumento sistemático del conjunto de datos de entrenamiento con ejemplos adversarios generados algorítmicamente. Este proceso permite que el modelo aprenda a resistir alteraciones sutiles en la entrada, fortaleciendo su límite de decisión contra los ataques de evasión. 2. **Validación y Purificación de Entradas** Implementar una capa de filtrado robusta antes de que el *input* llegue al sistema de IA. Esto incluye el uso de técnicas de preprocesamiento como la reducción de ruido o el suavizado para eliminar perturbaciones mínimas, así como la aplicación estricta de *guardrails* para validar que las entradas cumplen con los patrones de seguridad definidos. 3. **Mejora de la Arquitectura y la Interpretabilidad del Modelo** Aplicar técnicas de endurecimiento arquitectónico como la Destilación Defensiva para suavizar los gradientes del modelo, dificultando la búsqueda de perturbaciones adversarias efectivas. Adicionalmente, integrar herramientas de IA Explicable (XAI) para la detección proactiva, analizando la influencia de las características de entrada (ej. con SHAP o LIME adversario) para identificar anomalías o manipulaciones.