Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Salida inexplicable

En el ámbito de la Inteligencia Artificial, nos enfrentamos al desafío de la *caja negra*: la trazabilidad del razonamiento del modelo hasta su juicio predictivo se vuelve inherentemente difícil, imprecisa o, en los casos más complejos de aprendizaje profundo, virtualmente imposible de reconstruir. Este déficit de *explicabilidad* socava la auditabilidad del sistema y la confianza necesaria para su implementación crítica.

Fuente: MIT AI Risk Repositorymit1182

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1182

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.4 > Falta de transparencia o interpretabilidad

Estrategia de mitigacion

1. **Integración Proactiva de la Explicabilidad en el Ciclo de Vida del Modelo:** Incorporar los requisitos de explicabilidad e interpretabilidad desde las fases iniciales de diseño y desarrollo, asegurando que se apliquen principios de IA Responsable. Esto incluye la alineación con marcos de gobernanza y riesgo (como AI TRiSM) para que la trazabilidad del razonamiento del modelo sea una prioridad fundamental, mitigando el riesgo de la "caja negra" antes de su despliegue. 2. **Implementación Estratégica de Técnicas de XAI (Modelos *Post-hoc* o Intrínsecamente Interpretables):** Elegir la estrategia de explicabilidad adecuada en función de la criticidad y la complejidad del caso de uso. Se debe dar preferencia a modelos intrínsecamente interpretables (e.g., árboles de decisión, regresiones lineales) en escenarios de menor complejidad. Para modelos de alta complejidad (e.g., aprendizaje profundo), es imperativo el uso de técnicas *post-hoc* validadas y robustas (como SHAP o LIME) para generar justificaciones comprensibles de las decisiones. 3. **Establecimiento de un Sistema de Monitoreo Continuo para la Detección de Sesgos y Deriva del Modelo:** Instituir mecanismos de monitoreo sistemático que permitan gestionar y evaluar la imparcialidad (*fairness*) del modelo a lo largo de su vida operativa. Esto incluye cuantificar y mitigar el riesgo de sesgos involuntarios, alertar sobre desviaciones en los resultados previstos y evaluar continuamente el rendimiento del modelo para optimizar su confiabilidad y robustez.