2. Privacidad y Seguridad1 - Pre-despliegue

Finetuning (Envenenamiento de dataset)

El riesgo central aquí es el llamado envenenamiento del conjunto de datos, o *data poisoning*. Este ataque ocurre durante la fase crítica del ajuste fino (*fine-tuning*), un proceso en el que se adapta un modelo ya entrenado a un conjunto de datos o tarea específicos. Un actor malicioso puede inyectar datos sutilmente manipulados en este conjunto con el propósito de inducir comportamientos específicos —y generalmente perjudiciales— en el modelo resultante. La particularidad de esta amenaza es que la alteración se ejecuta sin necesidad de acceder a los pesos o a la arquitectura interna del modelo, atacando directamente la cadena de suministro de los datos. Dado que estas manipulaciones son intencionalmente sutiles y muy dirigidas, su detección a través de una simple inspección del *dataset* es notoriamente compleja.

Fuente: MIT AI Risk Repositorymit984

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit984

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Control Riguroso de la Calidad y la Procedencia de los Datos Establecer un sistema de validación automatizada de datos que audite rigurosamente los conjuntos utilizados para el ajuste fino (*fine-tuning*). Se debe priorizar la implementación de algoritmos de detección de valores atípicos (*outlier detection*) y métodos de agrupamiento (*clustering*) para identificar y filtrar muestras de datos que se desvíen significativamente del patrón esperado, garantizando la trazabilidad (procedencia) de todas las fuentes. 2. Monitoreo Continuo del Comportamiento y Detección de Deriva Implementar un monitoreo post-entrenamiento continuo para rastrear la deriva del comportamiento del modelo (*model drift*). Esto incluye realizar pruebas de seguridad (*red teaming*) y utilizar conjuntos de validación *holdout* limpios para evaluar regularmente el desempeño del modelo y detectar cambios sutiles en la precisión, la aparición de sesgos o la respuesta ante disparadores de puertas traseras (*backdoors*) específicas. 3. Refuerzo del Control de Acceso y Preparación para el Retorno a un Estado Limpio Aplicar políticas de control de acceso basado en roles (RBAC) estrictas a las *pipelines* de datos y los entornos de ajuste fino. Adicionalmente, mantener sistemas de control de versiones (como DVC) para los conjuntos de datos de entrenamiento verificados y los puntos de control (*checkpoints*) del modelo. Esto permite un retorno rápido (*rollback*) a una versión limpia y verificada para la retención inmediata en caso de detección de envenenamiento.