2. Privacidad y Seguridad1 - Pre-despliegue

Memoria y Almacenamiento

El concepto que nos ocupa se sitúa en la intersección crítica entre la seguridad del hardware y la integridad de los modelos de inteligencia artificial, como los Grandes Modelos de Lenguaje (LLM). El riesgo fundamental se origina en el ataque **Rowhammer**, una vulnerabilidad física documentada en la memoria DRAM (Dynamic Random-Access Memory). Dada la extrema densidad de empaquetamiento de las celdas de memoria en los chips modernos, el acceso muy rápido y repetitivo a una fila de celdas (conocida como fila "agresora") genera una interferencia eléctrica suficiente para provocar una **inversión de valor de los bits** (un *bit flip*) en las filas adyacentes, o filas "víctima". Es, en esencia, una fuga eléctrica no intencionada que compromete el aislamiento de datos. El **Deephammer** es una sofisticada explotación de esta vulnerabilidad, diseñada específicamente para atacar la "inteligencia" de los modelos de aprendizaje profundo y los LLM. El ataque aprovecha el Rowhammer para inducir volteos de bits de forma precisa y dirigida en los **parámetros** o "pesos" del modelo mientras están cargados en la memoria DRAM. Al alterar un conjunto pequeño y crítico de estos valores numéricos, un atacante puede **degradar determinísticamente la precisión predictiva** del modelo, incluso hasta el nivel de una adivinación aleatoria, comprometiendo así completamente su funcionalidad y seguridad. En resumen, demuestra que las vulnerabilidades de infraestructura de hardware pueden ser apalancadas para saltar las capas de seguridad de software y manipular la lógica interna de la IA.

Fuente: MIT AI Risk Repositorymit27

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit27

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Mecanismos de Refresh Dirigido Avanzado (TRR) Integrar soluciones de *Targeted Row Refresh* (TRR) o de Conteo Preciso de Activaciones (como el estándar PRAC) directamente en el controlador de memoria o el *firmware* de la DRAM. Esto implica un monitoreo continuo y riguroso de las activaciones de las filas de memoria (*aggressor rows*) para emitir refrescos preventivos y oportunos en las filas adyacentes (*victim rows*), mitigando la interferencia eléctrica y el *bit-flipping* antes de que se corrompan los parámetros del LLM. 2. Aislamiento Físico y Lógico de la Memoria Crítica Utilizar soluciones a nivel de sistema operativo o hipervisor para imponer un **aislamiento estricto** entre las regiones de la memoria física que albergan los parámetros, pesos y *buffers* sensibles del LLM y las regiones de memoria accesibles por procesos de bajo privilegio o potencialmente maliciosos. Este *hard partitioning* frustra la capacidad del atacante de coaccionar páginas de memoria vulnerables adyacentes a los datos del modelo, requisito fundamental para un ataque dirigido como Deephammer. 3. Técnicas de Aleatorización y Control de Acceso Basado en ML Aplicar esquemas de **Aleatorización de Direcciones de Memoria** que desacoplen la correlación espacial entre las direcciones lógicas y físicas (como Rubix) para prevenir la identificación determinística de las filas adyacentes. Complementariamente, implementar *gatekeeping* basado en Machine Learning (*on-chip*) para analizar patrones de acceso a la memoria en tiempo real, distinguir el tráfico benigno del malicioso y aplicar limitación de recursos (*throttling*) o contramedidas instantáneas con baja sobrecarga.