Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Desvío del modelo

El Desvío de Modelo (Model Diversion) representa una sofisticación en las amenazas de seguridad de la Inteligencia Artificial. Este mecanismo consiste en la **reorientación intencional de modelos de IA generativa** (frecuentemente aquellos de código abierto) para desviarlos de las funcionalidades o casos de uso para los que fueron concebidos originalmente por sus desarrolladores. Es decir, se toma una herramienta legítima y se le asigna un propósito radicalmente distinto, a menudo malicioso o no autorizado. Un ejemplo claro de esta práctica es el desarrollo de **DarkBert**, que se logró al entrenar el modelo de código abierto BERT, originalmente diseñado para el procesamiento de lenguaje natural general, utilizando datos provenientes de la Dark Web.

Fuente: MIT AI Risk Repositorymit1135

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1135

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Prioridad Alta: Refuerzo de la Gobernanza y la Alineación de Seguridad Previa a la Distribución (Evitar) Implementar un marco de gobernanza riguroso para la distribución de modelos de IA generativa (especialmente los de código abierto), incluyendo licencias de uso que prohíban explícitamente el reentrenamiento o *fine-tuning* con datos maliciosos o con fines no autorizados. Adicionalmente, integrar técnicas avanzadas de *Safety Alignment* durante la fase de preentrenamiento para dotar al modelo de robustez intrínseca, dificultando que un actor malicioso pueda desviar su funcionalidad hacia la generación de resultados dañinos o prohibidos. 2. Prioridad Media: Desarrollo de Sistemas de Trazabilidad y Detección de Desviaciones (Minimizar) Desarrollar e implementar mecanismos técnicos de trazabilidad, como el *model fingerprinting* o *watermarking*, que permitan rastrear y autenticar la versión original del modelo. Complementariamente, establecer un sistema de monitoreo continuo de repositorios públicos y no públicos (como la *Dark Web* o foros especializados) para la detección temprana de derivados desviados del modelo (por ejemplo, variantes como DarkBert) y medir su propagación o uso malicioso. 3. Prioridad Baja: Plan de Respuesta a Incidentes Específico para Modelos (Restaurar) Establecer un Plan de Respuesta a Incidentes (IRP) enfocado en el *Model Diversion* que dicte un protocolo claro para la neutralización del riesgo. Esto incluye la comunicación proactiva y técnica a la comunidad de usuarios sobre las vulnerabilidades y los riesgos del modelo desviado, y la publicación rápida de parches, contramedidas de detección (signatures) o modelos de reemplazo con seguridad reforzada para mitigar el impacto residual en el ecosistema digital.