Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Fuga de pesos del modelo

El riesgo se materializa a través de la fuga de los pesos del modelo de IA, las variables matemáticas que definen su comportamiento interno, un incidente que puede ocurrir incluso cuando el acceso inicial se limita a círculos controlados, como el de investigadores institucionales. Es fundamental comprender que esta vulnerabilidad se agrava exponencialmente a medida que se expande el número de individuos con acceso, volviendo la identificación del vector de la fuga significativamente más compleja. La disponibilidad de estos pesos filtrados tiene dos consecuencias críticas: primero, simplifica la implementación de ataques sofisticados, tales como la identificación de ejemplos adversarios para subvertir el modelo, la manifestación de capacidades peligrosas latentes en el sistema, o la exfiltración de información confidencial residual de los datos de entrenamiento. Segundo, permite la manipulación directa del sistema de IA, eludiendo sus salvaguardas para producir contenido que puede ser considerado dañino o ilícito.

Fuente: MIT AI Risk Repositorymit1042

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1042

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Establecer un estricto control de acceso basado en el principio de mínimo privilegio (RBAC/ABAC) para limitar significativamente la cantidad de personal y sistemas autorizados a interactuar con los pesos del modelo. Es fundamental centralizar todas las copias de los pesos en un número limitado de sistemas de almacenamiento de alta seguridad que cuenten con control de acceso y monitoreo continuo. 2. Implementar el cifrado robusto de los pesos del modelo, tanto en reposo (almacenamiento) como en tránsito, utilizando algoritmos estándar de la industria. Adicionalmente, se recomienda encarecidamente investigar e incorporar tecnologías de computación confidencial para asegurar los pesos durante su uso (inferencia), minimizando la superficie de ataque en entornos operativos. 3. Desarrollar un programa integral de amenazas internas e implementar un sistema de monitoreo en tiempo real con capacidades de detección de anomalías. Este sistema debe identificar y alertar inmediatamente sobre patrones de acceso inusuales o intentos de exfiltración de grandes volúmenes de datos que se correlacionen con los archivos de los pesos del modelo.