Relacionado con entrenamiento (Ejemplos adversarios)
Los ejemplos adversariales son un conjunto de datos de entrada sutilmente alterados cuyo propósito es inducir un comportamiento incorrecto o no deseado en un modelo de inteligencia artificial. Su eficacia radica en que no atacan la lógica central del modelo, sino que explotan correlaciones superficiales o espurias que la IA ha aprendido de forma inadvertida durante su fase de entrenamiento. Estos casos se categorizan como ataques en tiempo de inferencia, ya que se aplican como datos de prueba durante el funcionamiento operativo del sistema. Un factor que incrementa su riesgo es su capacidad de generalización, o 'transferibilidad', dado que a menudo logran engañar a distintas arquitecturas de modelos, e incluso a modelos entrenados con diferentes conjuntos de datos originales.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit977
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Entrenamiento Adversarial (Adversarial Training) 2. Destilación Defensiva (Defensive Distillation) 3. Validación y Extracción Robusta de Características (Input Validation and Robust Feature Extraction)