7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Fine-tuning related (Catastrophic forgetting due to continual instruction fine-tuning)

El fenómeno del *olvido catastrófico* se refiere a la alarmante tendencia de un modelo de inteligencia artificial a perder por completo, o de forma significativa, la capacidad de ejecutar tareas o retener información factual que había aprendido con anterioridad, inmediatamente después de ser entrenado con nuevos datos. En el contexto particular de los modelos de lenguaje a gran escala, este efecto es a menudo precipitado por el proceso de *ajuste continuo de instrucciones*. Es importante notar que, como un riesgo de escalado, esta vulnerabilidad tiende a exacerbarse a medida que la arquitectura y el tamaño del modelo se incrementan.

Fuente: MIT AI Risk Repositorymit987

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit987

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementación de Replicación de Experiencias (Experience Replay) Consiste en preservar y re-exponer periódicamente al modelo a un subconjunto reducido y representativo de datos de tareas previamente aprendidas. Esta estrategia de *rehearsal* ha demostrado ser la más efectiva para contrarrestar el olvido catastrófico al asegurar un equilibrio dinámico entre la retención del conocimiento antiguo y la adquisición de nueva información. 2. Regularización Basada en la Importancia del Peso Aplicar métodos de regularización, como la Consolidación Elástica de Pesos (EWC), que introducen un término de penalización en la función de pérdida. Este mecanismo restringe las actualizaciones de los parámetros del modelo que son considerados críticos o esenciales para el rendimiento de tareas anteriores, previniendo su modificación destructiva. 3. Aislamiento de Parámetros y Soluciones Arquitectónicas Emplear técnicas de Ajuste Fino con Aislamiento Eficiente de Parámetros (PECFT), como adaptadores (e.g., LoRA) combinados con restricciones de ortogonalidad o estrategias de *routing*. Estas soluciones modulares evitan la interferencia entre tareas al asignar o congelar parámetros específicos para el nuevo aprendizaje, manteniendo la integridad del conocimiento fundamental previamente adquirido.