Inexactitud de Benchmark (Saturación)
El concepto de saturación de *benchmarks* describe una situación crítica: el momento en que las métricas de evaluación para modelos de inteligencia artificial alcanzan su techo de rendimiento. Este fenómeno implica que los modelos ya obtienen puntuaciones máximas o cercanas a ellas, lo que anula la capacidad del test para diferenciar el progreso. Una vez que la saturación ocurre, el *benchmark* pierde su utilidad como medida efectiva, ya que las ganancias de capacidad más sutiles o matizadas en los nuevos sistemas de IA no pueden ser detectadas, obstaculizando la evaluación precisa de su avance
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1002
Linea de dominio
6. Socioeconómico y Ambiental
6.5 > Fallo de gobernanza
Estrategia de mitigacion
1. Desarrollo Proactivo y Continuo de *Benchmarks* de Alta Dificultad - Implementar un proceso constante para crear y desplegar nuevas suites de evaluación (por ejemplo, siguiendo el modelo de BIG-Bench Extra Hard) diseñadas para medir capacidades de modelos de IA en tareas de complejidad superior y multidimensional. El objetivo es restablecer el techo de rendimiento y asegurar que la evaluación pueda diferenciar ganancias de capacidad matizadas en sistemas de última generación. 2. Adopción de Estrategias Híbridas y Calibración con Juicio Humano - Establecer metodologías de evaluación que combinen anotación y juicio asistidos por modelos de lenguaje (LLM-human hybrid annotation) con la calibración rigurosa a través de jueces humanos. Esto minimiza el sesgo de los evaluadores automatizados y permite la aplicación de escalas de capacidad intercambiables, las cuales demuestran tendencias de progreso incluso cuando los *benchmarks* específicos alcanzan la saturación. 3. Control de la Fuga de Datos (*Data Leakage*) y Muestreo de Dificultad Selectiva - Mantener una estricta segregación y contención de los *datasets* de evaluación para prevenir la fuga de datos en los *datasets* de entrenamiento, mitigando así la saturación artificial. Complementariamente, aplicar un enfoque de muestreo selectivo en la evaluación humana que se centre en ítems de dificultad intermedia y emplee modelos estadísticos para extrapolar con precisión las probabilidades de rendimiento en los extremos de dificultad.