2. Privacidad y Seguridad1 - Pre-despliegue

Ataques de Evasión

Los *Ataques de Evasión* (Evasion Attacks) son una forma de ciberataque avanzado diseñado para explotar la naturaleza estadística de los modelos de *Machine Learning*. Su propósito fundamental es inducir un cambio significativo e incorrecto en la predicción del modelo objetivo. Este proceso se articula mediante la adición de *perturbaciones* —alteraciones mínimas y sutiles— a las muestras de entrada originales, lo que da lugar a la creación de los llamados *ejemplos adversarios*. Dichas perturbaciones no son aleatorias; se implementan de forma estratégica, basándose en la manipulación directa de características de entrada (como cambios en palabras o píxeles) o en el uso de técnicas de optimización matemática que aprovechan los gradientes internos del modelo para maximizar el error de clasificación.

Fuente: MIT AI Risk Repositorymit50

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit50

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Aplicar la técnica de Entrenamiento Adversario (Adversarial Training) de manera iterativa, incorporando ejemplos adversarios generados en el conjunto de datos de entrenamiento para aumentar la robustez intrínseca del modelo ante perturbaciones sutiles 2. Establecer mecanismos robustos de saneamiento y validación de datos de entrada (Input Sanitization) para detectar y neutralizar proactivamente las perturbaciones mínimas antes de que el input sea procesado por el modelo principal 3. Desplegar sistemas de monitoreo continuo y detección de anomalías basados en el comportamiento (Behavioral Analysis) para identificar inputs que se desvíen significativamente del patrón normal de datos, lo cual puede indicar un intento de ataque de evasión