2. Privacidad y Seguridad2 - Post-despliegue

Riesgos de modelos (Ataque adversario)

La Seguridad de la Inteligencia Artificial (IA) es un campo de investigación interdisciplinario fundamental cuyo propósito es garantizar que los sistemas de IA sean seguros, confiables y estén alineados con los objetivos humanos, minimizando así los riesgos catastróficos y las consecuencias no deseadas. Dentro de este marco, una vulnerabilidad crítica se manifiesta en la falta de **Robustez Adversaria** de los modelos de *machine learning*. Esta debilidad se explota mediante los **Ejemplos Adversarios**: entradas de datos que un atacante ha diseñado intencionalmente con **perturbaciones sutiles e imperceptibles** para el ojo humano. El objetivo de estas manipulaciones es **engañar, influir o manipular** al modelo de IA, forzándolo a una clasificación errónea o a un comportamiento incorrecto. En esencia, son el equivalente de una **ilusión óptica** diseñada específicamente para la percepción de una máquina. El riesgo es palpable y se traduce en fallas operacionales significativas: - Un vehículo autónomo que malinterpreta una señal de tráfico alterada como una señal inofensiva. - Un detector de spam que clasifica un correo malicioso como legítimo. - Un sistema de seguridad que no detecta un objeto prohibido.Abordar los ejemplos adversarios es, por lo tanto, esencial para cerrar la brecha entre lo que los diseñadores pretenden que haga un algoritmo y cómo el algoritmo se comporta realmente en presencia de un adversario.

Fuente: MIT AI Risk Repositorymit647

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit647

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Entrenamiento Adversario y Robustecimiento Intrínseco del ModeloIntegrar el *Entrenamiento Adversario* (*Adversarial Training*) como práctica estándar durante la fase de desarrollo y reentrenamiento del modelo. Esta técnica fundamental consiste en exponer el algoritmo a ejemplos adversarios generados intencionalmente, forzándolo a aprender representaciones menos frágiles y a resistir las *perturbaciones sutiles* que explotan sus vulnerabilidades. Adicionalmente, implementar métodos como la *Destilación Defensiva* o el uso de *Modelos de Conjunto* (*Ensemble Methods*) para suavizar los límites de decisión y dificultar la ingeniería inversa por parte del atacante.2. Implementación de Defensas en Capas y Filtrado de EntradaEstablecer una arquitectura de seguridad de múltiples capas. Esto incluye el despliegue de *barreras de seguridad* (*guardrails*) y *preprocesadores* (ej. técnicas de suavizado espacial o reducción de ruido) para validar y sanear las entradas antes de que lleguen al modelo en producción. Estos mecanismos actúan como una primera línea de defensa, detectando y mitigando proactivamente patrones anómalos o instrucciones maliciosas incrustadas que busquen evadir los filtros tradicionales.3. Evaluación Rigurosa y Monitoreo de Robustez en ProducciónAdoptar un enfoque de seguridad proactivo que incorpore la *evaluación continua* de la *Robustez Adversaria* mediante métricas específicas y pruebas de estrés contra ataques conocidos (caja blanca y caja negra). Además, implementar sistemas de monitoreo en tiempo real en la fase de post-despliegue que analicen patrones de comportamiento inusuales, anomalías estadísticas o desviaciones de rendimiento que puedan indicar la materialización de un ataque adversario en curso.