2. Privacidad y Seguridad1 - Pre-despliegue

Puertas traseras o troyanos en modelos GPAI

Las "puertas traseras" (*backdoors*) son vulnerabilidades maliciosas introducidas intencionalmente en los modelos de Inteligencia Artificial de Propósito General (GPAI) durante su entrenamiento o ajuste fino. Estos mecanismos ocultos pueden ser insertados tanto por el propio proveedor del modelo como por un tercero que logre manipular la infraestructura de *software* o los datos de entrenamiento. Su peligro reside en que permanecen latentes hasta la fase de despliegue, momento en el que el atacante puede activarlas con un esfuerzo mínimo (*minimal overhead*). Esto les permite controlar y sesgar de forma dirigida y con alta eficacia los resultados que genera el modelo.

Fuente: MIT AI Risk Repositorymit1016

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1016

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Reforzar la Seguridad de la Cadena de Suministro del Modelo Implementar medidas de ciberseguridad y gobernanza rigurosas en la fase de pre-despliegue (entrenamiento y ajuste fino). Esto incluye la sanitización y protección criptográfica de los *datasets* de entrenamiento para prevenir ataques de envenenamiento de datos (*Data Poisoning*), así como controles de acceso estrictos y auditorías continuas de la infraestructura de *software* utilizada para evitar la inyección maliciosa de código o la manipulación directa de la arquitectura del modelo. 2. Aplicar Técnicas de Detección de Troyanos Pre-despliegue Realizar evaluaciones exhaustivas del modelo antes de su puesta en funcionamiento mediante tecnologías especializadas en la detección de troyanos y *backdoors*. Estas evaluaciones deben incluir el uso de entrenamiento adversarial y el análisis profundo de los patrones de activación internos del modelo, así como el monitoreo de anomalías en sus salidas y métricas de confianza bajo un conjunto de entradas diversas, incluyendo aquellas diseñadas para simular un *trigger* de activación. 3. Establecer un Marco de Vigilancia Activa en Producción Instaurar un sistema de gobernanza de modelos que asegure el monitoreo continuo en tiempo real del sistema de IA desplegado. Se debe emplear la detección de anomalías para identificar cualquier desviación significativa en el comportamiento del modelo, como cambios abruptos en la distribución de las predicciones o fallos inesperados en tareas críticas, permitiendo una contención y respuesta inmediata para mitigar la explotación del *backdoor* en el entorno operativo.