7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Fine-tuning related (Unexpected competence in fine-tuned versions of the upstream model)

La práctica habitual en la implementación de modelos de Inteligencia Artificial de Propósito General (GPAI) implica un proceso de *ajuste fino* o *fine-tuning*. Los implementadores en fases subsiguientes (*downstream*) adaptan el modelo base mediante conjuntos de datos específicos para la tarea. El riesgo reside en que este ajuste fino puede desencadenar la manifestación de *capacidades emergentes*. Un modelo así modificado es susceptible de adquirir habilidades nuevas e inesperadas que el modelo original no exhibía. Este fenómeno es crucial, pues implica que las nuevas funciones pueden ser inherentemente impredecibles para el desarrollador inicial, dificultando la anticipación de riesgos.

Fuente: MIT AI Risk Repositorymit982

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit982

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar evaluaciones exhaustivas de desalineación emergente (*Emergent Misalignment Testing*) y de límites de capacidad (*Boundary Evaluations*) después del proceso de ajuste fino. Esto debe enfocarse en la detección sistemática de *capacidades peligrosas* no previstas o sesgos que hayan surgido, asegurando la mitigación proactiva antes del despliegue del sistema de IA. 2. Aplicar técnicas rigurosas de **regularización** (p. ej., *Dropout* o *L2 Regularization*) y **detención temprana** (*Early Stopping*) durante la fase de *fine-tuning*. Esto es fundamental para prevenir el **sobreajuste** (*overfitting*) a los datos específicos de la tarea y preservar las propiedades de seguridad y la capacidad de generalización del modelo base. 3. Adoptar arquitecturas de **Ajuste Fino Eficiente en Parámetros (PEFT)**, tales como **LoRA** (*Low-Rank Adaptation*) o *Adapter Tuning*. Estas técnicas reducen la modificación de los pesos originales del modelo pre-entrenado, limitando así la posibilidad de que el ajuste fino induzca involuntariamente *capacidades emergentes* no deseadas o vulnerabilidades de seguridad.