Ataques de Envenenamiento
Los *ataques de envenenamiento* (*poisoning attacks*) constituyen una sofisticada técnica de manipulación en el campo de la seguridad de la IA. Consisten en la introducción intencionada de pequeñas, pero maliciosas, modificaciones en el conjunto de datos que utiliza un modelo durante su fase de entrenamiento, buscando así influir en su comportamiento futuro de manera sutil. Una aplicación particularmente crítica de este método es el desarrollo de los *ataques de puerta trasera* (*backdoor attacks*). En este escenario, los atacantes logran implantar un "desencadenante" (*trigger*) secreto dentro del modelo. El sistema se comportará de forma normal y esperada hasta que se encuentre con ese estímulo oculto —que en textos puede ser un carácter específico, una palabra rara, una construcción sintáctica, o una frase completa— momento en el que el modelo ejecuta la acción maliciosa que le fue programada.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit47
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Saneamiento y Validación Exhaustiva de Datos: Implementar mecanismos rigurosos de detección de anomalías y valores atípicos (*outlier detection*) en los conjuntos de datos, asegurando la trazabilidad de la procedencia de los datos (*data provenance*) para identificar y eliminar proactivamente muestras potencialmente maliciosas o envenenadas antes de su incorporación al proceso de entrenamiento del modelo. 2. Aplicación de Técnicas de Entrenamiento Robusto: Utilizar metodologías de entrenamiento, como el entrenamiento adversarial, que refuercen intrínsecamente la solidez del modelo. Esto implica exponer intencionalmente al modelo a ejemplos adversariales para que desarrolle la capacidad de reconocerlos y mitigar la influencia de datos de entrenamiento manipulados, reduciendo su susceptibilidad a ataques causativos. 3. Monitorización Continua y Auditoría de Comportamiento: Establecer sistemas de monitoreo en tiempo real para rastrear continuamente el rendimiento y las salidas del modelo, utilizando conjuntos de validación limpios (*clean holdout sets*) para detectar cualquier desviación o degradación inesperada en su precisión o comportamiento. Esto permite identificar rápidamente la activación de puertas traseras o los efectos sutiles del envenenamiento después del despliegue.