2. Privacidad y Seguridad3 - Otro

Ataque adversario

Avances recientes en la investigación han puesto de manifiesto una paradoja crucial en la seguridad de la Inteligencia Artificial: un modelo de aprendizaje profundo, incluso con una precisión predictiva altísima, es susceptible a un comportamiento anómalo cuando se le presentan los denominados ejemplos adversarios [57,58]. Específicamente, basta con introducir una perturbación mínima en los datos de entrada —una alteración que resulta imperceptible para la cognición humana— para conseguir que un modelo avanzado emita una predicción radicalmente distinta a la correcta [23].

Fuente: MIT AI Risk Repositorymit304

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit304

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Entrenamiento Adversario (Adversarial Training) Integrar ejemplos adversarios generados sintéticamente (e.g., mediante el método Fast Gradient Sign Method) directamente en el conjunto de entrenamiento. Esta estrategia fundamental optimiza la función de pérdida para minimizar el rendimiento en el peor de los casos, mejorando así la robustez intrínseca del modelo y su capacidad para generalizar ante entradas perturbadas. 2. Validación Rigurosa de Entradas y Extracción de Características Robustas Establecer mecanismos de validación y preprocesamiento de datos que detecten y filtren perturbaciones sutiles, como el uso de técnicas de detección de anomalías estadísticas o la extracción robusta de características. El objetivo es asegurar que las predicciones del modelo se basen en señales significativas del *dominio* en lugar de artefactos explotables de la *superficie* de los datos. 3. Aplicación de Destilación Defensiva (Defensive Distillation) Utilizar la técnica de destilación de conocimiento para entrenar una red "estudiante" a partir de las salidas de probabilidad suave (soft probabilities) de una red "maestra". Este proceso resulta en límites de decisión más suaves, lo que reduce la amplitud de los gradientes del modelo y, consecuentemente, incrementa la dificultad para un adversario de generar ejemplos que logren una clasificación errónea con perturbaciones mínimas.