Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Relacionado con entrenamiento (Ejemplos adversarios)

Los ejemplos adversariales son un conjunto de datos de entrada sutilmente alterados cuyo propósito es inducir un comportamiento incorrecto o no deseado en un modelo de inteligencia artificial. Su eficacia radica en que no atacan la lógica central del modelo, sino que explotan correlaciones superficiales o espurias que la IA ha aprendido de forma inadvertida durante su fase de entrenamiento. Estos casos se categorizan como ataques en tiempo de inferencia, ya que se aplican como datos de prueba durante el funcionamiento operativo del sistema. Un factor que incrementa su riesgo es su capacidad de generalización, o 'transferibilidad', dado que a menudo logran engañar a distintas arquitecturas de modelos, e incluso a modelos entrenados con diferentes conjuntos de datos originales.

Fuente: MIT AI Risk Repositorymit977

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit977

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Entrenamiento Adversarial (Adversarial Training) 2. Destilación Defensiva (Defensive Distillation) 3. Validación y Extracción Robusta de Características (Input Validation and Robust Feature Extraction)