Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Ataques de Extracción

El concepto de 'Ataque de Extracción' (Model Extraction) describe un vector de riesgo crítico donde un actor malicioso, el adversario, interactúa sistemáticamente con un modelo objetivo que opera como una 'caja negra' (es decir, sus detalles internos son desconocidos). Mediante la formulación de consultas y el registro de las respuestas obtenidas, el adversario recopila un conjunto de datos que utiliza para entrenar un *modelo sustituto*. La peligrosidad radica en que este modelo duplicado puede llegar a igualar el rendimiento del modelo víctima. Si bien replicar la totalidad de las capacidades de los Grandes Modelos de Lenguaje (LLMs) sigue siendo un desafío considerable, esta técnica permite a los atacantes desarrollar modelos *específicos de dominio* que logran extraer y asimilar el conocimiento especializado contenido en el LLM original.

Fuente: MIT AI Risk Repositorymit45

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit45

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Limitación de Velocidad y Monitoreo de Uso Establecer y aplicar políticas rigurosas de limitación de velocidad (rate limiting) en la interfaz pública de inferencia para restringir el volumen y la frecuencia de las consultas provenientes de una única fuente. Esto debe complementarse con un monitoreo API continuo y sofisticado para identificar y mitigar patrones de uso atípicos o picos inesperados que sugieran una actividad de extracción sistemática del modelo. 2. Destilación de Conocimiento y Despliegue de Modelos Simplificados Utilizar la destilación de conocimiento (knowledge distillation) para entrenar y exponer un modelo "estudiante" de menor capacidad. Este modelo debe replicar la funcionalidad esencial del modelo propietario, pero con una menor fidelidad a los ejemplos específicos de entrenamiento, lo que disminuye la superficie de ataque para la clonación funcional y la extracción de propiedad intelectual. 3. Ofuscación de las Salidas de Predicción y Reducción de Unicidad Minimizar la información contenida en la respuesta de la API de predicción, por ejemplo, limitando la precisión de las puntuaciones de confianza o evitando la devolución de detalles que permitan inferir los límites de decisión. Adicionalmente, reducir la unicidad de los datos de entrenamiento mediante la agrupación de categorías raras o el redondeo de valores numéricos para prevenir la identificación de "huellas digitales" de datos concretos.