2. Privacidad y Seguridad1 - Pre-despliegue

Envenenamiento de datos

Se trata de una modalidad de ataque adversario que consiste en la inserción intencionada de muestras de datos corrompidos, falsos o engañosos por parte de un actor externo o un *insider* malicioso. El objetivo fundamental es socavar la integridad y el rendimiento del modelo al comprometer directamente los conjuntos de datos utilizados en su fase de entrenamiento o de ajuste fino (*fine-tuning*).

Fuente: MIT AI Risk Repositorymit1154

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1154

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Establecer controles de acceso rigurosos y trazabilidad inmutable de los datos (Data Provenance), aplicando el principio de mínimo privilegio (PoLP) para restringir estrictamente qué entidades (humanas o automatizadas) pueden acceder o modificar los conjuntos de datos de entrenamiento y los *pipelines* de datos. 2. Implementar mecanismos de validación y saneamiento de datos en tiempo real, utilizando algoritmos de detección de anomalías y *clustering* para identificar y filtrar proactivamente muestras corruptas o estadísticamente atípicas antes de que sean integradas al *dataset* de entrenamiento. 3. Conducir monitoreos continuos del comportamiento del modelo (*Model Behavior Tracking*) y auditorías periódicas del rendimiento post-entrenamiento (comparando contra *golden datasets* o utilizando *canary tests*), con el objetivo de detectar cualquier degradación inesperada en la precisión o el surgimiento de *drifting* que pueda indicar un envenenamiento subrepticio.