7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Falta de transparencia e interpretabilidad

La IA de Frontera actual se caracteriza por su opacidad inherente, lo que dificulta su interpretación y comprensión. La información contextual de los datos de entrenamiento no está explícitamente codificada dentro de estos modelos. Esta limitación estructural implica un riesgo significativo de que la inteligencia artificial no refleje adecuadamente las perspectivas de grupos subrepresentados o que ignore las limitaciones operacionales para las cuales fue diseñada. Para corregir o refinar estas capacidades, es indispensable la aplicación de técnicas posteriores como el ajuste fino (fine tuning) o el aprendizaje por refuerzo con retroalimentación humana (RLHF).

Fuente: MIT AI Risk Repositorymit803

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit803

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.4 > Falta de transparencia o interpretabilidad

Estrategia de mitigacion

1. Implementar metodologías de Explicabilidad de la Inteligencia Artificial (XAI), tanto a nivel de diseño (modelos intrínsecamente interpretable) como mediante técnicas *post-hoc* (por ejemplo, SHAP o LIME), para generar justificaciones comprensibles de las decisiones algorítmicas para usuarios y partes interesadas. 2. Establecer marcos de gobernanza y políticas de transparencia que exijan la validación rigurosa de modelos, la auditabilidad continua de sus procesos internos y la rendición de cuentas (accountability) por los resultados generados. 3. Aplicar técnicas de refinamiento posteriores al entrenamiento, como el ajuste fino (*fine tuning*) o el aprendizaje por refuerzo con retroalimentación humana (RLHF), para integrar el entendimiento contextual y las perspectivas de grupos subrepresentados en la lógica del sistema.