7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Reentrenamiento impropio

La incorporación de outputs indeseables o desalineados (tales como respuestas inexactas, contenido inapropiado o datos de usuario sin la debida curación) en el conjunto de reentrenamiento introduce una contaminación progresiva en los pesos del modelo. Este proceso cíclico de degradación puede generar un comportamiento emergente e inesperado que compromete la seguridad y la fiabilidad del sistema de inteligencia artificial.

Fuente: MIT AI Risk Repositorymit1152

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1152

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Establecer un protocolo de curación y gobernanza de datos riguroso, que incluya validación por expertos o sistemas *human-in-the-loop*, para filtrar y excluir sistemáticamente todo *output* inexacto, inapropiado o sin la debida curación antes de su incorporación al conjunto de reentrenamiento. 2. Adoptar metodologías de mitigación de riesgo específicas, como el *fine-tuning* controlado sobre capas específicas del modelo o la implementación de componentes de seguridad (*wrappers*) externos, para limitar el impacto potencial de la contaminación de datos en los pesos fundamentales del modelo. 3. Implementar un sistema de monitoreo continuo del rendimiento del modelo en producción para detectar y alertar inmediatamente sobre cualquier signo de degradación de la calidad del *output*, deriva de comportamiento o el fenómeno de *model collapse* posterior a los ciclos de reentrenamiento.