6. Socioeconómico y Ambiental1 - Pre-despliegue

Inexactitud de Benchmark (Saturación)

El concepto de saturación de *benchmarks* describe una situación crítica: el momento en que las métricas de evaluación para modelos de inteligencia artificial alcanzan su techo de rendimiento. Este fenómeno implica que los modelos ya obtienen puntuaciones máximas o cercanas a ellas, lo que anula la capacidad del test para diferenciar el progreso. Una vez que la saturación ocurre, el *benchmark* pierde su utilidad como medida efectiva, ya que las ganancias de capacidad más sutiles o matizadas en los nuevos sistemas de IA no pueden ser detectadas, obstaculizando la evaluación precisa de su avance

Fuente: MIT AI Risk Repositorymit1002

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1002

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

1. Desarrollo Proactivo y Continuo de *Benchmarks* de Alta Dificultad - Implementar un proceso constante para crear y desplegar nuevas suites de evaluación (por ejemplo, siguiendo el modelo de BIG-Bench Extra Hard) diseñadas para medir capacidades de modelos de IA en tareas de complejidad superior y multidimensional. El objetivo es restablecer el techo de rendimiento y asegurar que la evaluación pueda diferenciar ganancias de capacidad matizadas en sistemas de última generación. 2. Adopción de Estrategias Híbridas y Calibración con Juicio Humano - Establecer metodologías de evaluación que combinen anotación y juicio asistidos por modelos de lenguaje (LLM-human hybrid annotation) con la calibración rigurosa a través de jueces humanos. Esto minimiza el sesgo de los evaluadores automatizados y permite la aplicación de escalas de capacidad intercambiables, las cuales demuestran tendencias de progreso incluso cuando los *benchmarks* específicos alcanzan la saturación. 3. Control de la Fuga de Datos (*Data Leakage*) y Muestreo de Dificultad Selectiva - Mantener una estricta segregación y contención de los *datasets* de evaluación para prevenir la fuga de datos en los *datasets* de entrenamiento, mitigando así la saturación artificial. Complementariamente, aplicar un enfoque de muestreo selectivo en la evaluación humana que se centre en ítems de dificultad intermedia y emplee modelos estadísticos para extrapolar con precisión las probabilidades de rendimiento en los extremos de dificultad.