Los sesgos no se reflejan con precisión en las explicaciones
Las técnicas de explicabilidad existentes demuestran ser insuficientes al intentar identificar sesgos discriminatorios. Esto se debe a que métodos de manipulación específicos pueden ofuscar intencionalmente los sesgos subyacentes del modelo, produciendo así justificaciones artificiales y engañosas. Estas explicaciones forzadas omiten los atributos sensibles o prohibidos (como la raza o el género) y, en su lugar, resaltan variables que resultan socialmente deseables, incluso cuando estas no representan con precisión la lógica real por la cual el modelo tomó una decisión.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit1010
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Aplicación de Metodologías de Explicabilidad Rigurosas (XAI Post-Hoc) Implementar técnicas de Inteligencia Artificial Explicable (XAI) matemáticamente sólidas, como SHAP (SHapley Additive exPlanations), para cuantificar la contribución exacta de cada variable de entrada a una predicción específica. Esto permite desentrañar la lógica subyacente del modelo de manera precisa y auditable, revelando dependencias injustas de atributos sensibles (como género o raza) que las explicaciones superficiales podrían intentar ocultar o excluir. 2. Auditoría y Monitoreo Continuo de Equidad e Imparcialidad Establecer procesos formales de auditoría algorítmica y ética que evalúen de forma periódica el impacto del modelo en diferentes grupos demográficos (evaluación de impacto diferencial). Se deben emplear métricas de equidad específicas y marcos de gestión de riesgos (e.g., NIST AI RMF) para detectar y mitigar la desviación del modelo, asegurando que las decisiones automatizadas no refuercen patrones discriminatorios, independientemente de la explicación superficial generada. 3. Establecimiento de Transparencia y Trazabilidad Documental Garantizar la transparencia total y la trazabilidad de cada fase del desarrollo del modelo, desde la recopilación de datos hasta la evaluación final. Documentar rigurosamente la selección de características, las decisiones de arquitectura del algoritmo y los resultados de las pruebas de sesgo. Esta documentación sirve como un mecanismo de verificación independiente para identificar y refutar cualquier manipulación intencional o subrepticia que busque ofuscar la causa real de las predicciones sesgadas.