Benchmarking (Contaminación de directrices)
El concepto de *contaminación de pautas* (*guideline contamination*) se refiere a escenarios donde las instrucciones detalladas, originalmente diseñadas para guiar la recolección, anotación o el uso de un conjunto de datos, son inadvertidamente expuestas al modelo de inteligencia artificial. Fundamentalmente, estas directrices pueden vehicular pares explícitos de dato y etiqueta, proporcionando al modelo un atajo que artificialmente mejora sus capacidades para la tarea, sin que necesariamente refleje un aprendizaje robusto.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit998
Linea de dominio
6. Socioeconómico y Ambiental
6.5 > Fallo de gobernanza
Estrategia de mitigacion
1. Garantizar la segregación estricta de las directrices de anotación/recolección del conjunto de datos del modelo: Establecer un marco de gobernanza de datos que impida categóricamente la inclusión de las instrucciones detalladas (pautas o guidelines) utilizadas para la recolección, curación o anotación del conjunto de datos dentro del corpus de entrenamiento, validación y prueba del modelo 2. Implementar pruebas de validación cruzada y auditorías de procedencia: Desarrollar conjuntos de benchmarking alternativos o hold-out sets que se generen independientemente de las directrices principales para detectar la contaminación. Complementar esto con una trazabilidad rigurosa (data provenance) del conjunto de datos para verificar la pureza de la muestra 3. Establecer protocolos de documentación y transparencia rigurosos: Documentar de manera exhaustiva el proceso de creación de los conjuntos de datos, incluyendo una descripción detallada de las directrices utilizadas y una estimación de la posible tasa de contaminación, con el fin de interpretar los resultados de la evaluación con la debida cautela académica y metodológica