Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Extracción del modelo

En el campo de la seguridad de la Inteligencia Artificial, es crucial distinguir entre dos formas de compromiso ilícito dirigidas a la propiedad intelectual de un sistema. La **Exfiltración de Datos** (Data Exfiltration) consiste en la obtención subrepticia de los conjuntos de datos de entrenamiento que pueden ser sensibles o propietarios, y que fueron la base para construir el modelo. Este riesgo supera la mera filtración de información privada. Por otro lado, la **Extracción de Modelos** (Model Extraction) es una operación similar, pero cuyo objetivo es el propio sistema de IA, y no sus datos de origen. Implica la sustracción de elementos clave como la arquitectura, los parámetros o los hiperparámetros de un modelo propietario (Carlini et al., 2024).

Fuente: MIT AI Risk Repositorymit1136

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1136

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Monitoreo Avanzado y Detección de Anomalías Implementar sistemas robustos de monitoreo de tráfico en la interfaz de programación de aplicaciones (API) para detectar patrones de consulta atípicos, sistemáticos o de alto volumen que excedan los umbrales de uso legítimo, indicando un intento de reconstrucción funcional o "robo de la funcionalidad" del modelo. 2. Control de Salida y Degradación Informacional Aplicar mecanismos de perturbación controlada de las predicciones, tales como la adición de ruido calibrado (privacidad diferencial) a las puntuaciones de confianza o la truncación de la salida para devolver únicamente etiquetas duras (hard labels) o las $k$ clases principales. Esto busca reducir la riqueza informacional expuesta, dificultando el proceso de destilación de conocimiento. 3. Defensas Arquitectónicas e Integración de Marca de Agua Incorporar características de seguridad directamente en la arquitectura del modelo, como la manipulación de los mecanismos de atención en modelos *transformer* o la implementación de marcos de marca de agua (*watermarking*) para incrustar un patrón detectable que persista incluso después de una extracción exitosa, proporcionando evidencia de la propiedad intelectual.