4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Finetuning (Facilidad de reconfiguración)

En el ámbito de la seguridad de la Inteligencia Artificial, se observa un riesgo inherente en la **reconfigurabilidad** de los modelos de propósito general (GPAI). Estos sistemas demuestran una notable facilidad para ser adaptados a casos de uso muy diversos o, simplemente, manifiestan competencias que superan su diseño original. Esta modificación puede articularse de dos maneras: a nivel de arquitectura interna, mediante la alteración de sus parámetros (*fine-tuning* o ajuste fino); o a través de la manipulación de sus entradas, un mecanismo que abarca técnicas como la *ingeniería de prompts*, el *jailbreaking* para eludir salvaguardas, o la **Generación Aumentada por Recuperación (RAG)**. Es crucial entender que esta reorientación de capacidades puede ser tanto **intencional** —a menudo facilitada por *inputs* adversarios diseñados para tal fin— como **no intencional**, al surgir de la interacción con entradas imprevistas que revelan capacidades latentes del modelo.

Fuente: MIT AI Risk Repositorymit981

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit981

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. **Implementación de Controles de Entrada y Separación de Instrucciones del Sistema** Establecer mecanismos de validación y saneamiento de *inputs* para mitigar activamente el *prompt engineering* malicioso y el *jailbreaking*. Esto incluye la estricta segregación de las instrucciones internas del modelo de las entradas proporcionadas por el usuario, utilizando delimitadores claros y aplicando controles semánticos para detectar intentos de anular las salvaguardas de seguridad preestablecidas. 2. **Evaluación Continua y Mitigación de Riesgos Post-Modificación** Instaurar un proceso obligatorio y continuo de evaluación del modelo (*model evaluations* y *red-teaming*) que se active tras cualquier modificación significativa (como el *fine-tuning*). Dicho proceso debe determinar si la reconfiguración ha alterado la generalidad, las capacidades o el perfil de riesgo sistémico, asegurando que las vulnerabilidades introducidas sean mitigadas antes y después del despliegue (*post-deployment monitoring*). 3. **Protección del Conjunto de Datos y Control de Salida** Asegurar el *dataset* utilizado para el *fine-tuning* mediante cifrado y controles de acceso robustos para prevenir la exfiltración o el uso indebido de datos que puedan ser expuestos por el modelo reconfigurado. Adicionalmente, implementar filtros de salida y políticas de uso aceptable que prohíban la generación de contenido que infrinja derechos de autor o que sea inherentemente dañino.