Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Fine-tuning related (Degrading safety training due to benign fine-tuning)

El riesgo reside en lo que se denomina "deriva del ajuste". Cuando los implementadores o proveedores secundarios toman un modelo de inteligencia artificial preentrenado (a menudo un modelo fundacional) y lo someten a un proceso de ajuste fino o personalización para adaptarlo a sus tareas específicas, se introduce una sutil vulnerabilidad. Paradójicamente, el modelo resultante tiene una mayor propensión a generar resultados indeseados o francamente perjudiciales —en comparación con su versión original—, incluso si el conjunto de datos utilizado para esta especialización es de uso común y se considera completamente inofensivo. Este fenómeno subraya cómo la especialización puede amplificar sesgos latentes o generar nuevos comportamientos de riesgo no previstos por el desarrollador inicial.

Fuente: MIT AI Risk Repositorymit986

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit986

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Implementar Defensas Robustas en la Etapa de Alineación. Blindar el modelo fundacional original mediante la integración proactiva de señales adversarias o contrastivas durante la fase inicial de Entrenamiento Supervisado (SFT) y Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). El objetivo es dotar al modelo base de una resistencia inherente que evite que procesos de ajuste fino posteriores, incluso con datos catalogados como benignos, anulen o degraden las salvaguardas de seguridad previamente establecidas (conocido como *Alignment-stage defenses*). 2. Aplicar Estrategias de Mitigación durante el Ajuste Fino. Interponer activamente mecanismos de control durante el proceso de Ajuste Fino (SFT) llevado a cabo por el proveedor secundario o el usuario. Esto puede incluir la mezcla periódica de una fracción controlada del conjunto de datos de alineación de seguridad original (*periodic mixing*), o la aplicación de restricciones al espacio de gradientes (p. ej., congelamiento selectivo de capas) para guiar la dinámica de aprendizaje y mitigar la "deriva del ajuste" involuntaria. 3. Establecer un Marco Riguroso de Verificación y Monitoreo Continuo. Desarrollar y aplicar metodologías de evaluación de seguridad exhaustivas que sean independientes de la utilidad o tarea específica. Esto debe incluir la verificación *post-despliegue* de la robustez del modelo ajustado en un amplio espectro de parámetros de generación y *prompts* de prueba, y la implementación de sistemas de monitoreo continuo para detectar y alertar automáticamente sobre cualquier regresión o desviación en los Indicadores Clave de Rendimiento (KPI) de seguridad.