2. Privacidad y Seguridad2 - Post-despliegue

Evasion attack

Los ataques de evasión, en el ámbito de la ciberseguridad adversaria, son una técnica empleada para manipular un modelo de aprendizaje automático que ya se encuentra en producción. El mecanismo central reside en introducir una 'perturbación' estratégica y casi imperceptible en los datos de entrada que se le suministran al modelo. Si bien esta alteración es indetectable para un observador humano, es suficiente para desorientar la función de decisión del algoritmo, forzándolo a emitir una clasificación o predicción completamente errónea y, de esta forma, evadir su correcto funcionamiento.

Fuente: MIT AI Risk Repositorymit1157

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1157

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

- Implementar Entrenamiento Adversario (Adversarial Training): Fortificar la robustez del modelo exponiéndolo sistemáticamente a ejemplos adversarios (entradas perturbadas) durante la fase de entrenamiento, lo cual maximiza su resiliencia para mantener predicciones correctas frente a manipulaciones sutiles en los datos de inferencia. - Aplicar Extracción Robusta de Características y Validación Rigurosa de Entradas: Desarrollar mecanismos de preprocesamiento de datos para filtrar el "ruido" malicioso y asegurar que el modelo tome decisiones basadas en patrones significativos y estables, además de rechazar o señalar cualquier dato de entrada que presente características anómalas o fuera de rango. - Establecer Monitoreo Continuo y Plataformas de Inteligencia de Amenazas: Implementar sistemas de vigilancia que rastreen patrones inusuales en el comportamiento del modelo y el flujo de consultas. Integrar fuentes de inteligencia de amenazas contextualizadas para identificar y mitigar de forma proactiva las nuevas tácticas, técnicas y procedimientos (TTPs) de evasión emergentes.