6. Socioeconómico y Ambiental1 - Pre-despliegue

Benchmarking (Contaminación de datos brutos)

Este fenómeno se denomina *contaminación de datos de evaluación* y ocurre cuando el material crudo y sin etiquetar de un conjunto de pruebas de referencia (un *benchmark*) se incorpora accidentalmente al conjunto de datos de entrenamiento de un modelo. Dado que esta información no está depurada ni formateada, puede introducir ruido o sesgos. La implicación crítica es que, si el modelo ha tenido contacto previo con el contenido del *benchmark*, incluso en esta forma bruta, su rendimiento reportado en tareas de aprendizaje con cero o pocos ejemplos (*zero-shot* y *few-shot* performance) queda bajo serio escrutinio, pues la evaluación ya no mide una capacidad de generalización genuina.

Fuente: MIT AI Risk Repositorymit996

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit996

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

1. Establecer protocolos rigurosos de segregación y control de procedencia (provenance) de los datos, asegurando que los conjuntos de evaluación (*benchmarks*) se mantengan estrictamente separados, en entornos de datos aislados (*sandboxing*), de los conjuntos de datos de pre-entrenamiento y entrenamiento del modelo. 2. Implementar mecanismos automatizados de detección de contaminación (*contamination detection*), utilizando métodos de superposición de *n*-gramas, análisis de probabilidad de *tokens* o verificación de reconstrucción para identificar y cuantificar proactivamente cualquier fuga de datos entre el conjunto de entrenamiento y el *benchmark*. 3. Desarrollar y utilizar estrategias de mitigación activa del *benchmark*, tales como la reformulación semántica de las preguntas originales o la generación de nuevos ejemplos de evaluación basados en datos recientes, para garantizar que la evaluación mida una capacidad de generalización genuina y no la memorización.