2. Privacidad y Seguridad2 - Post-despliegue

Privacidad - Ataque de Inferencia de Pertenencia (MIA)

La capacidad de inferir si un fragmento de texto específico fue, de hecho, parte del conjunto de datos de entrenamiento de un Modelo de Lenguaje Grande (LLM). Este concepto es crucial para la auditoría de la procedencia de los datos, la evaluación de riesgos de privacidad y la trazabilidad del conocimiento incorporado en el modelo.

Fuente: MIT AI Risk Repositorymit1362

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1362

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

Estimado usuario, A continuación, se presenta una lista de estrategias de mitigación precisas para el riesgo de Privacidad por Ataque de Inferencia de Pertenencia (MIA) en Modelos de Lenguaje Grande (LLMs), priorizadas según su solidez e impacto en la gobernanza y seguridad de la IA:1. **Implementación de Defensas Basadas en Privacidad (Privacidad Diferencial y Arquitecturas de Ensamble)** Establecer el uso de técnicas de **Privacidad Diferencial (PD)**, como el Descenso de Gradiente con Privacidad Diferencial (DP-SGD), para proporcionar garantías de privacidad rigurosas y matemáticamente comprobables respecto a la contribución de cualquier registro de entrenamiento individual. Alternativamente, para mantener una alta utilidad del modelo, implementar arquitecturas defensivas avanzadas, como **Split-AI/SELENA**, que utilizan estrategias de inferencia adaptativa y *self-distillation* para mitigar la capacidad del atacante de distinguir entre datos miembro y no miembro del conjunto de entrenamiento. 2. **Restricción y Cuantificación de la Salida del Modelo (Output Perturbation)** Limitar la sensibilidad de los resultados del modelo, que el atacante explota para la inferencia de pertenencia. Esto se logra configurando el servicio para que solo devuelva **etiquetas duras (hard labels)** en lugar de probabilidades o puntuaciones detalladas (*posteriors/logits*). Asimismo, se debe considerar la cuantificación o reducción de la precisión del vector de predicción, o la restricción a las predicciones del *top k* de clases, para aumentar la entropía de la salida y dificultar la evaluación de la función de pérdida por parte del atacante. 3. **Regularización Rigurosa y Optimización del Conjunto de Datos de Entrenamiento** Aplicar métodos de **regularización avanzada** (como *weight decay* o *dropout*, o pérdidas específicas a nivel de *token* como en DuoLearn) durante la fase de entrenamiento para reducir el fenómeno del sobreajuste (*overfitting*), el cual es la causa fundamental de la vulnerabilidad a los ataques MIA. De forma complementaria, asegurar la **sanitización y deduplicación** exhaustiva del corpus de entrenamiento para minimizar la memorización exacta de fragmentos de texto o información sensible, reduciendo así la superficie de ataque.