6. Socioeconómico y Ambiental1 - Pre-despliegue

Inexactitud de Benchmark (Evaluación inexacta)

Las pruebas de rendimiento (benchmarks) de los sistemas de inteligencia artificial pueden tanto infravalorar como sobrevalorar sus capacidades efectivas. La infravaloración surge si la evaluación es incompleta, si el benchmark está saturado por modelos existentes, o si las capacidades dependen de una configuración compleja como tareas de programación realistas; en contraste, la sobrevaloración se produce cuando el sistema es entrenado o ajustado directamente con los datos de la prueba, un fenómeno conocido como sobreajuste o *overfitting*.

Fuente: MIT AI Risk Repositorymit1001

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1001

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

1. Priorizar e implementar estrategias robustas de **mitigación de Contaminación de Datos de Benchmark (BDC)** para asegurar la *longevidad* y *correctitud* de la evaluación. Esto incluye la aplicación sistemática de transformaciones semánticas combinadas (como el parafraseo intensivo y la permutación de opciones) para reducir la memorización, y considerar la restricción del acceso público a los conjuntos de prueba para prevenir el sobreajuste (*overfitting*). 2. Adoptar un marco de **meta-evaluación de la fiabilidad del benchmark** (como BenchRisk) que audite continuamente las cinco dimensiones críticas: *comprensividad*, *inteligibilidad*, *consistencia*, *correctitud* y *longevidad*. Esta auditoría debe correlacionar la evidencia del benchmark con las decisiones de riesgo en el mundo real, priorizando las mitigaciones para los modos de fallo de mayor severidad. 3. Invertir estratégicamente en la **curación de nuevos conjuntos de datos de benchmark** diseñados desde cero para casos de uso de alto riesgo, garantizando la no-contaminación. Simultáneamente, establecer criterios de evaluación explícitos y **ligados a los resultados** (por ejemplo, precisión vs. exhaustividad) para asegurar que la métrica refleje fielmente la capacidad del modelo para la tarea específica.