2. Privacidad y Seguridad2 - Post-despliegue

Entrada adversaria

El concepto de Entradas Adversarias, crucial en la seguridad de la Inteligencia Artificial, describe una técnica por la cual se manipulan los datos de entrada individuales de un modelo con el fin específico de provocar su mal funcionamiento o un error de clasificación. Lo que distingue a estas modificaciones es su naturaleza sigilosa: son alteraciones mínimas, a menudo imperceptibles para el ojo humano, que explotan las debilidades o la lógica interna del modelo de toma de decisiones. Este tipo de ataque es transversal y no se limita al texto, sino que se extiende a datos sensoriales como imágenes, audio o vídeo. El ejemplo canónico es la alteración de apenas unos pocos píxeles en una imagen de un panda, lo que induce al modelo de clasificación a etiquetar esa imagen, con una alta convicción errónea, como un gibón. Este fenómeno expone una brecha fundamental en la robustez de los modelos de IA frente a perturbaciones sutiles.

Fuente: MIT AI Risk Repositorymit1133

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1133

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. **Entrenamiento Adversario (Adversarial Training)** Mejorar la robustez intrínseca del modelo mediante el aumento sistemático del conjunto de datos de entrenamiento con ejemplos adversarios generados algorítmicamente. Este proceso permite que el modelo aprenda a resistir alteraciones sutiles en la entrada, fortaleciendo su límite de decisión contra los ataques de evasión. 2. **Validación y Purificación de Entradas** Implementar una capa de filtrado robusta antes de que el *input* llegue al sistema de IA. Esto incluye el uso de técnicas de preprocesamiento como la reducción de ruido o el suavizado para eliminar perturbaciones mínimas, así como la aplicación estricta de *guardrails* para validar que las entradas cumplen con los patrones de seguridad definidos. 3. **Mejora de la Arquitectura y la Interpretabilidad del Modelo** Aplicar técnicas de endurecimiento arquitectónico como la Destilación Defensiva para suavizar los gradientes del modelo, dificultando la búsqueda de perturbaciones adversarias efectivas. Adicionalmente, integrar herramientas de IA Explicable (XAI) para la detección proactiva, analizando la influencia de las características de entrada (ej. con SHAP o LIME adversario) para identificar anomalías o manipulaciones.