2. Privacidad y Seguridad1 - Pre-despliegue

Ataques de Envenenamiento

Se trata de un tipo de ataque adversario cuyo objetivo es inducir a un comportamiento erróneo en el modelo mediante la manipulación intencionada de su conjunto de datos de entrenamiento, una vulnerabilidad comúnmente explotada en los sistemas de clasificación.

Fuente: MIT AI Risk Repositorymit477

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit477

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar un riguroso proceso de saneamiento y validación de datos (data sanitization), utilizando mecanismos avanzados de detección de anomalías y valores atípicos (outlier detection) durante la fase de pre-procesamiento para identificar y filtrar muestras de entrenamiento sospechosas o contaminadas. 2. Fortalecer la resiliencia del modelo mediante la aplicación de técnicas de entrenamiento robusto y entrenamiento adversario (Adversarial Training), exponiendo el sistema a ejemplos manipulados para mejorar su capacidad de clasificación correcta ante datos potencialmente envenenados. 3. Establecer un sistema de monitoreo continuo del rendimiento del modelo y la trazabilidad (provenance) de los datos, registrando el linaje y las modificaciones para identificar rápidamente cualquier descenso en la precisión o la fuente de los datos maliciosos. 4. Implementar controles de acceso estrictos y cifrado para asegurar la integridad de los conjuntos de datos de entrenamiento y restringir la capacidad de actores no autorizados para manipularlos directamente.

EVIDENCIA ADICIONAL

El modelo entrenado con datos contaminados (o 'envenenados') incorpora comportamientos maliciosos durante su fase de aprendizaje, lo que inevitablemente conduce a clasificaciones erróneas en el momento de la inferencia (uso). Además, los atacantes pueden emplear técnicas de optimización algorítmica para diseñar muestras de entrada que están específicamente orientadas a maximizar el error del modelo.