Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Privacidad - Ataque de Extracción de Modelo (MEA)

La replicación de los parámetros internos del LLM

Fuente: MIT AI Risk Repositorymit1366

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1366

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar la limitación de tasa (rate limiting) y el monitoreo conductual riguroso en la interfaz de la API para identificar y bloquear patrones de consulta sistemáticos y de alto volumen, característicos de un intento de extracción. 2. Aplicar técnicas de perturbación de la salida (Output Perturbation), añadiendo ruido calibrado a las puntuaciones de confianza o utilizando la destilación defensiva, para reducir la riqueza de información de cada respuesta sin comprometer significativamente la utilidad. 3. Integrar mecanismos de watermarking (marca de agua) en el modelo para incrustar patrones detectables en su comportamiento, facilitando la identificación de réplicas no autorizadas en el dominio público.