Fine-tuning related (Unexpected competence in fine-tuned versions of the upstream model)
La práctica habitual en la implementación de modelos de Inteligencia Artificial de Propósito General (GPAI) implica un proceso de *ajuste fino* o *fine-tuning*. Los implementadores en fases subsiguientes (*downstream*) adaptan el modelo base mediante conjuntos de datos específicos para la tarea. El riesgo reside en que este ajuste fino puede desencadenar la manifestación de *capacidades emergentes*. Un modelo así modificado es susceptible de adquirir habilidades nuevas e inesperadas que el modelo original no exhibía. Este fenómeno es crucial, pues implica que las nuevas funciones pueden ser inherentemente impredecibles para el desarrollador inicial, dificultando la anticipación de riesgos.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit982
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementar evaluaciones exhaustivas de desalineación emergente (*Emergent Misalignment Testing*) y de límites de capacidad (*Boundary Evaluations*) después del proceso de ajuste fino. Esto debe enfocarse en la detección sistemática de *capacidades peligrosas* no previstas o sesgos que hayan surgido, asegurando la mitigación proactiva antes del despliegue del sistema de IA. 2. Aplicar técnicas rigurosas de **regularización** (p. ej., *Dropout* o *L2 Regularization*) y **detención temprana** (*Early Stopping*) durante la fase de *fine-tuning*. Esto es fundamental para prevenir el **sobreajuste** (*overfitting*) a los datos específicos de la tarea y preservar las propiedades de seguridad y la capacidad de generalización del modelo base. 3. Adoptar arquitecturas de **Ajuste Fino Eficiente en Parámetros (PEFT)**, tales como **LoRA** (*Low-Rank Adaptation*) o *Adapter Tuning*. Estas técnicas reducen la modificación de los pesos originales del modelo pre-entrenado, limitando así la posibilidad de que el ajuste fino induzca involuntariamente *capacidades emergentes* no deseadas o vulnerabilidades de seguridad.