Ataques de Envenenamiento
Se trata de un tipo de ataque adversario cuyo objetivo es inducir a un comportamiento erróneo en el modelo mediante la manipulación intencionada de su conjunto de datos de entrenamiento, una vulnerabilidad comúnmente explotada en los sistemas de clasificación.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit477
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar un riguroso proceso de saneamiento y validación de datos (data sanitization), utilizando mecanismos avanzados de detección de anomalías y valores atípicos (outlier detection) durante la fase de pre-procesamiento para identificar y filtrar muestras de entrenamiento sospechosas o contaminadas. 2. Fortalecer la resiliencia del modelo mediante la aplicación de técnicas de entrenamiento robusto y entrenamiento adversario (Adversarial Training), exponiendo el sistema a ejemplos manipulados para mejorar su capacidad de clasificación correcta ante datos potencialmente envenenados. 3. Establecer un sistema de monitoreo continuo del rendimiento del modelo y la trazabilidad (provenance) de los datos, registrando el linaje y las modificaciones para identificar rápidamente cualquier descenso en la precisión o la fuente de los datos maliciosos. 4. Implementar controles de acceso estrictos y cifrado para asegurar la integridad de los conjuntos de datos de entrenamiento y restringir la capacidad de actores no autorizados para manipularlos directamente.
EVIDENCIA ADICIONAL
El modelo entrenado con datos contaminados (o 'envenenados') incorpora comportamientos maliciosos durante su fase de aprendizaje, lo que inevitablemente conduce a clasificaciones erróneas en el momento de la inferencia (uso). Además, los atacantes pueden emplear técnicas de optimización algorítmica para diseñar muestras de entrada que están específicamente orientadas a maximizar el error del modelo.