2. Privacidad y Seguridad2 - Post-despliegue

Seguridad (Security)

El riesgo de sufrir pérdidas o daños funcionales en el sistema, causados por una acción maliciosa deliberada, como la subversión intencionada de sus protocolos o la inducción forzada de un fallo operativo.

Fuente: MIT AI Risk Repositorymit200

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit200

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Priorizar el diseño de modelos intrínsecamente robustos mediante la aplicación de **entrenamiento adversario** y la verificación formal del comportamiento del agente para aumentar la resistencia a los ataques de evasión. 2. Establecer un marco de **gobernanza de datos** riguroso, que incluya la validación de entradas (*input validation*) y el seguimiento de la procedencia de los datos, con el fin de mitigar los riesgos inherentes al envenenamiento de datos (*data poisoning*). 3. Reforzar la seguridad de las interfaces y APIs a través de **controles de acceso de confianza cero** y la **limitación de metadatos** expuestos externamente, lo cual es fundamental para prevenir el robo o la extracción del modelo.

EVIDENCIA ADICIONAL

El campo de la seguridad en sistemas de Inteligencia Artificial (IA) revela tres vectores de ataque fundamentales. En primer lugar, está el **ataque de evasión**. Investigaciones como la de Goodfellow y sus colegas demostraron que es posible inducir clasificaciones erróneas en modelos de visión artificial al perturbar la entrada con una cantidad mínima de ruido generado de forma *adversaria*. Este fenómeno permite al atacante eludir la clasificación del sistema. La vulnerabilidad es particularmente alta si los modelos no han sido entrenados explícitamente para ser robustos contra estas alteraciones, que en ocasiones pueden emular fenómenos naturales como gotas de lluvia o variaciones fonológicas. El segundo vector es el **envenenamiento de datos** (*data poisoning*), donde la manipulación de los datos de entrenamiento se utiliza para permitir que el sistema de *Machine Learning* sea controlado con entradas específicas durante la inferencia, por ejemplo, para sortear un sistema biométrico. Los riesgos potenciales aquí radican en la aplicación, la gobernanza de los datos de entrenamiento y la robustez intrínseca del modelo ante tales manipulaciones. Finalmente, existe el riesgo de **robo de modelos**. Los investigadores han demostrado la capacidad de "extraer" un modelo de ML a través de APIs de servicios gestionados, explotando los metadatos que el servicio devuelve, como las puntuaciones de confianza. Estos modelos robados pueden ser desplegados de forma independiente o utilizados para generar ejemplos adversarios más efectivos contra el modelo original. Es relevante notar que, incluso cuando la metadata no es expuesta externamente (como en un vehículo autónomo), el acceso físico al sistema sigue siendo una vía para extraer su arquitectura y pesos.