Benchmark Limitations (Underestimating capabilities that are not covered by benchmarks)
La ausencia de métricas de evaluación (*benchmarks*) que examinen rigurosamente habilidades específicas de un modelo de IA puede generar una opacidad en sus capacidades reales, tanto para quienes lo desarrollan como para quienes lo utilizan. Este desconocimiento de las verdaderas limitaciones del modelo puede inducir peligrosamente a una sensación ilusoria de seguridad y confianza.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit1004
Linea de dominio
6. Socioeconómico y Ambiental
6.5 > Fallo de gobernanza
Estrategia de mitigacion
1. Desarrollo y adopción de *benchmarks* especializados: Establecer un proceso continuo y riguroso para la ingeniería de nuevos *benchmarks* que evalúen capacidades específicas del modelo no cubiertas por las métricas tradicionales (e.g., creatividad, comprensión contextual, razonamiento complejo), empleando metodologías validadas que minimicen la contaminación de datos (BDC) y enfaticen la fidelidad y resistencia a la memorización; 2. Transparencia y gobernanza de las limitaciones: Implementar un marco de gobernanza que exija la documentación exhaustiva de las limitaciones inherentes a los *benchmarks* utilizados y asegurar la comunicación transparente de estos límites a los desarrolladores y usuarios finales, mitigando la inducción a una sensación ilusoria de seguridad y confianza; 3. Monitoreo y revisión continua: Diseñar y ejecutar un plan de seguimiento y revisión periódica de todos los *benchmarks* adoptados, con la participación de áreas de cumplimiento y auditoría interna, para verificar su vigencia y adecuación a los objetivos organizacionales, e identificar de manera proactiva la emergencia de nuevos riesgos no previstos en el momento del despliegue.