6. Socioeconómico y Ambiental1 - Pre-despliegue

Benchmark Limitations (Insufficient benchmarks for AI safety evaluation)

Los mecanismos de evaluación del rendimiento de los sistemas de Inteligencia Artificial (IA) –como los que miden su desempeño en tareas de programación o matemáticas– han alcanzado una madurez notablemente superior en comparación con las métricas diseñadas para medir su seguridad y el potencial de generar daños. Esta disparidad metodológica configura una brecha crítica: permite que los sistemas de IA exhiban una excelencia funcional en ciertos ámbitos mientras manifiestan simultáneamente comportamientos perjudiciales que eluden la detección. Por consiguiente, la expansión y el desarrollo de conjuntos de datos de evaluación específicamente orientados a la seguridad resultan indispensables para poder identificar y mitigar conductas indeseables en los modelos que, hasta ahora, permanecen inadvertidas.

Fuente: MIT AI Risk Repositorymit1003

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1003

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

- Prioridad Alta: Promover e invertir sustancialmente en la creación y estandarización de un conjunto exhaustivo de *benchmarks* y conjuntos de datos de evaluación dedicados exclusivamente a la seguridad de la IA. Estos deberán cubrir un espectro amplio de riesgos éticos, sociales y técnicos, trascendiendo las métricas de rendimiento funcional. - Prioridad Media: Implementar un marco regulatorio o de gobernanza que exija la integración obligatoria de los *benchmarks* de seguridad desarrollados en la fase de pre-despliegue de todo sistema de IA de alto impacto. La superación documentada de estos estándares debe constituir un requisito ineludible para la puesta en producción del modelo. - Prioridad Continua: Establecer un mecanismo ágil y colaborativo, involucrando a la industria, la academia y la sociedad civil, para el monitoreo continuo de riesgos emergentes y la actualización iterativa de las metodologías de evaluación y los *benchmarks* de seguridad.