Benchmarking (Contaminación de datos brutos)
Este fenómeno se denomina *contaminación de datos de evaluación* y ocurre cuando el material crudo y sin etiquetar de un conjunto de pruebas de referencia (un *benchmark*) se incorpora accidentalmente al conjunto de datos de entrenamiento de un modelo. Dado que esta información no está depurada ni formateada, puede introducir ruido o sesgos. La implicación crítica es que, si el modelo ha tenido contacto previo con el contenido del *benchmark*, incluso en esta forma bruta, su rendimiento reportado en tareas de aprendizaje con cero o pocos ejemplos (*zero-shot* y *few-shot* performance) queda bajo serio escrutinio, pues la evaluación ya no mide una capacidad de generalización genuina.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit996
Linea de dominio
6. Socioeconómico y Ambiental
6.5 > Fallo de gobernanza
Estrategia de mitigacion
1. Establecer protocolos rigurosos de segregación y control de procedencia (provenance) de los datos, asegurando que los conjuntos de evaluación (*benchmarks*) se mantengan estrictamente separados, en entornos de datos aislados (*sandboxing*), de los conjuntos de datos de pre-entrenamiento y entrenamiento del modelo. 2. Implementar mecanismos automatizados de detección de contaminación (*contamination detection*), utilizando métodos de superposición de *n*-gramas, análisis de probabilidad de *tokens* o verificación de reconstrucción para identificar y cuantificar proactivamente cualquier fuga de datos entre el conjunto de entrenamiento y el *benchmark*. 3. Desarrollar y utilizar estrategias de mitigación activa del *benchmark*, tales como la reformulación semántica de las preguntas originales o la generación de nuevos ejemplos de evaluación basados en datos recientes, para garantizar que la evaluación mida una capacidad de generalización genuina y no la memorización.