2. Privacidad y Seguridad2 - Post-despliegue

IA Adversaria: Ataques de Exfiltración de Datos y Modelos

Otras modalidades de abuso abarcan ataques a la privacidad, los cuales posibilitan que agentes malintencionados extraigan o infieran conocimiento sobre el conjunto de datos de entrenamiento privado o activos valiosos. Un ejemplo paradigmático es el ataque de inferencia de membresía (membership inference), que permite a un atacante determinar si un registro médico privado específico fue utilizado en el entrenamiento de un asistente de diagnóstico médico basado en IA. Un segundo eje de riesgo se centra en ataques contra la propiedad intelectual del asistente de IA. Estos se manifiestan a través de ataques de extracción y destilación de modelos que capitalizan la inherente tensión entre la necesidad de acceso a la API y la confidencialidad de los modelos de Machine Learning. Sin las mitigaciones adecuadas, estas vulnerabilidades podrían ser explotadas para abusar del acceso a una API de modelo de cara al público, permitiendo la exfiltración de propiedad intelectual sensible, como datos de entrenamiento críticos, la arquitectura del modelo y sus parámetros aprendidos.

Fuente: MIT AI Risk Repositorymit352

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit352

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Implementar controles estrictos de acceso y limitación de tasa de consultas (Rate Limiting) en la interfaz de programación de aplicaciones (API) del modelo. Esta medida es fundamental para restringir la frecuencia de las interacciones, disuadiendo eficazmente el sondeo sistemático requerido para la extracción de modelos por destilación y la recolección masiva de datos sensibles. 2. Aplicar técnicas de Privacidad Diferencial (Differential Privacy) y métodos de regularización avanzada durante el entrenamiento del modelo. Estas estrategias de diseño mitigan el sobreajuste y la memorización excesiva de datos específicos, protegiendo así la información individual contra ataques de inferencia de membresía y model inversion. 3. Reducir la granularidad de las salidas del modelo (por ejemplo, devolver solo etiquetas de clase en lugar de vectores de probabilidad) y establecer sistemas de monitoreo continuo del comportamiento. La limitación del detalle en la respuesta eleva el costo de la ingeniería inversa, mientras que la monitorización en tiempo real permite la detección de patrones de consulta anómalos indicativos de intentos de exfiltración de modelos o datos.