Privacidad - Ataque de Extracción de Modelo (MEA)
La replicación de los parámetros internos del LLM
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1366
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar la limitación de tasa (rate limiting) y el monitoreo conductual riguroso en la interfaz de la API para identificar y bloquear patrones de consulta sistemáticos y de alto volumen, característicos de un intento de extracción. 2. Aplicar técnicas de perturbación de la salida (Output Perturbation), añadiendo ruido calibrado a las puntuaciones de confianza o utilizando la destilación defensiva, para reducir la riqueza de información de cada respuesta sin comprometer significativamente la utilidad. 3. Integrar mecanismos de watermarking (marca de agua) en el modelo para incrustar patrones detectables en su comportamiento, facilitando la identificación de réplicas no autorizadas en el dominio público.