Benchmarking (Contaminación post-despliegue)
El concepto aborda un riesgo de seguridad post-despliegue: cuando un modelo operativo es expuesto a datos de referencia (benchmark data) proporcionados por los propios usuarios. La inclusión de esta información específicamente diseñada para la evaluación en el *set* de datos de entrenamiento continuo puede llevar a un reentrenamiento involuntario del modelo, contaminando así los futuros procesos de validación y comprometiendo la fidelidad de las métricas de rendimiento y seguridad.
ENTIDAD
3 - Otro
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1000
Linea de dominio
6. Socioeconómico y Ambiental
6.5 > Fallo de gobernanza
Estrategia de mitigacion
- Prioridad 1 (Alta): Establecer un mecanismo de segregación y filtrado de datos robusto que impida la transferencia automática de cualquier *input* de usuario identificado o sospechoso de contener datos de *benchmarking* al *dataset* de entrenamiento continuo. Dicha información debe ser redirigida a una zona de cuarentena con revisión humana obligatoria para la validación de su procedencia e integridad. - Prioridad 2 (Media): Implementar un protocolo de detección de anomalías y *data drift* que monitoree activamente las estadísticas de los nuevos datos propuestos para el reentrenamiento. Este sistema debe alertar sobre *inputs* que exhiban una distribución atípica o una correlación inusualmente alta con *datasets* de evaluación conocidos, lo que indicaría una posible contaminación y detendría el proceso de actualización del modelo. - Prioridad 3 (Baja): Formalizar un marco de gobernanza estricto para el ciclo de *Continuous Learning* que exija la revisión y aprobación formal por parte de un comité técnico o experto en seguridad de los *datasets* antes de cualquier proceso de reentrenamiento, asegurando la trazabilidad de los datos y la rendición de cuentas sobre la fidelidad de las métricas de validación futuras.