Volver al repositorio MIT
6. Socioeconómico y Ambiental1 - Pre-despliegue

Benchmark Limitations (Underestimating capabilities that are not covered by benchmarks)

La ausencia de métricas de evaluación (*benchmarks*) que examinen rigurosamente habilidades específicas de un modelo de IA puede generar una opacidad en sus capacidades reales, tanto para quienes lo desarrollan como para quienes lo utilizan. Este desconocimiento de las verdaderas limitaciones del modelo puede inducir peligrosamente a una sensación ilusoria de seguridad y confianza.

Fuente: MIT AI Risk Repositorymit1004

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1004

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

1. Desarrollo y adopción de *benchmarks* especializados: Establecer un proceso continuo y riguroso para la ingeniería de nuevos *benchmarks* que evalúen capacidades específicas del modelo no cubiertas por las métricas tradicionales (e.g., creatividad, comprensión contextual, razonamiento complejo), empleando metodologías validadas que minimicen la contaminación de datos (BDC) y enfaticen la fidelidad y resistencia a la memorización; 2. Transparencia y gobernanza de las limitaciones: Implementar un marco de gobernanza que exija la documentación exhaustiva de las limitaciones inherentes a los *benchmarks* utilizados y asegurar la comunicación transparente de estos límites a los desarrolladores y usuarios finales, mitigando la inducción a una sensación ilusoria de seguridad y confianza; 3. Monitoreo y revisión continua: Diseñar y ejecutar un plan de seguimiento y revisión periódica de todos los *benchmarks* adoptados, con la participación de áreas de cumplimiento y auditoría interna, para verificar su vigencia y adecuación a los objetivos organizacionales, e identificar de manera proactiva la emergencia de nuevos riesgos no previstos en el momento del despliegue.