Envenenamiento de datos
Se trata de una modalidad de ataque adversario que consiste en la inserción intencionada de muestras de datos corrompidos, falsos o engañosos por parte de un actor externo o un *insider* malicioso. El objetivo fundamental es socavar la integridad y el rendimiento del modelo al comprometer directamente los conjuntos de datos utilizados en su fase de entrenamiento o de ajuste fino (*fine-tuning*).
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1154
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Establecer controles de acceso rigurosos y trazabilidad inmutable de los datos (Data Provenance), aplicando el principio de mínimo privilegio (PoLP) para restringir estrictamente qué entidades (humanas o automatizadas) pueden acceder o modificar los conjuntos de datos de entrenamiento y los *pipelines* de datos. 2. Implementar mecanismos de validación y saneamiento de datos en tiempo real, utilizando algoritmos de detección de anomalías y *clustering* para identificar y filtrar proactivamente muestras corruptas o estadísticamente atípicas antes de que sean integradas al *dataset* de entrenamiento. 3. Conducir monitoreos continuos del comportamiento del modelo (*Model Behavior Tracking*) y auditorías periódicas del rendimiento post-entrenamiento (comparando contra *golden datasets* o utilizando *canary tests*), con el objetivo de detectar cualquier degradación inesperada en la precisión o el surgimiento de *drifting* que pueda indicar un envenenamiento subrepticio.