Volver al repositorio MIT
2. Privacidad y Seguridad3 - Otro

Riesgos de modelos (Robo y manipulación)

La información esencial de un algoritmo (parámetros, estructuras y funciones) está expuesta a amenazas de seguridad como ataques de inversión, sustracción, modificación no autorizada o la inyección maliciosa de puertas traseras (backdoors). Estos incidentes pueden tener como consecuencia directa la vulneración de los derechos de propiedad intelectual (DPI) y la filtración de secretos empresariales. A nivel funcional, la integridad comprometida del algoritmo provoca inferencias sesgadas o poco fiables, la emisión de decisiones incorrectas y, en escenarios graves, fallos operacionales críticos.

Fuente: MIT AI Risk Repositorymit645

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit645

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Mecanismos de Huella Digital de Modelos (Fingerprinting y Watermarking) Adoptar estrategias de huella digital estáticas y dinámicas para incrustar identificadores criptográficos inmutables en los modelos. Esto permite la verificación de la propiedad intelectual (IP) y la detección forense de copias no autorizadas o derivados del algoritmo, transformando el robo de modelos en un delito trazable. 2. Reforzamiento del Control de Acceso y Monitorización Continua Establecer un estricto marco de seguridad de Confianza Cero (Zero Trust) con controles de acceso de mínimo privilegio (least-privilege) al entorno de desarrollo y despliegue. Complementar esto con la monitorización continua (24/7 scans) y el límite de tasa de consultas (rate limiting) en las interfaces de la API de inferencia para identificar y bloquear patrones de consulta anómalos o intentos de extracción maliciosos. 3. Aplicación de Defensas de Robustez Adversaria Utilizar técnicas de defensa activa, como la ofuscación de respuestas (response obfuscation) y el entrenamiento adversario (adversarial training), para aumentar la resiliencia del modelo frente a ataques de inversión, sustracción y manipulación. Estas defensas elevan el costo y la complejidad para que un adversario pueda replicar o corromper el funcionamiento del algoritmo central.