Dispositivos de Red
El entrenamiento de los Modelos de Lenguaje Grandes (LLM) se realiza de forma recurrente en sistemas de red distribuidos. Esta configuración implica la transmisión constante de *gradientes* —la información esencial para el ajuste iterativo del modelo— a través de los enlaces que conectan los distintos nodos de servidores equipados con unidades de procesamiento gráfico (GPU). El resultado es la generación de un volumen significativo de tráfico de datos, el cual es intrínsecamente vulnerable a interrupciones. Específicamente, puede ser susceptible al llamado *tráfico de ráfaga*, ejemplificado por los *ataques pulsantes*, que buscan saturar momentáneamente la capacidad de la red. De forma complementaria, la propia naturaleza de estos *frameworks* de entrenamiento distribuido puede conducir a problemas recurrentes de congestión en los canales de comunicación.
ENTIDAD
3 - Otro
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit25
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar mecanismos de control de tráfico y protección volumétrica avanzados, como la limitación de tasa (rate limiting) y sistemas de mitigación de DDoS/ráfaga (scrubbing centers), en los enlaces de alta capacidad que interconectan los nodos de GPU. Esto asegura la disponibilidad y resiliencia del canal de comunicación frente a ataques pulsantes y la saturación por tráfico de ráfaga. 2. Segmentar la red (microsegmentación) para aislar el tráfico de entrenamiento de LLMs y aplicar políticas de endurecimiento (hardening) rigurosas a los dispositivos de red (routers, switches), incluyendo el cifrado de patrones de acceso y la validación de la integridad del hardware/software. Esto minimiza la superficie de ataque y los riesgos asociados a configuraciones por defecto. 3. Establecer un sistema de monitoreo y observabilidad full-stack en tiempo real para el rendimiento de la red, que incluya la medición continua de la latencia, la pérdida de paquetes y los indicadores de congestión. Esto permite la detección proactiva de anomalías y la aplicación de ajustes dinámicos y algoritmos de control de congestión optimizados para entornos de centros de datos.