Salidas inconsistentes con razonamiento chain-of-thought
El razonamiento en cadena de pensamiento (Chain-of-Thought o CoT) es una técnica implementada para mejorar la interpretabilidad de los modelos de IA, buscando exponer su proceso lógico interno a través de texto. No obstante, se ha observado que en ocasiones esta 'explicación' paso a paso resulta ser inconsistente con el resultado final que ofrece el modelo. Cuando esto sucede, la transparencia prometida por la CoT se desvanece, lo que dificulta significativamente la auditoría y comprensión de por qué el modelo llegó a una conclusión específica [113].
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1011
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.4 > Falta de transparencia o interpretabilidad
Estrategia de mitigacion
1. Implementación de técnicas de *Chain-of-Thought* Fiel (*Faithful CoT*). Este enfoque prioriza la alineación estricta entre el razonamiento intermedio (CoT) y el resultado final del modelo, mediante el uso de lógica simbólica o un entrenamiento especializado que penalice la inconsistencia para prevenir la racionalización *post-hoc*. 2. Aplicación de estrategias de Auto-Consistencia (*Self-Consistency*) y verificación. Generar múltiples cadenas de razonamiento y seleccionar la respuesta más robusta y consistente entre ellas. Esta técnica debe complementarse con la integración de la Generación Aumentada por Recuperación (RAG) para fundamentar los pasos lógicos en evidencia externa y verificable. 3. Desarrollo de monitores de *Chain-of-Thought* y mecanismos de filtrado selectivo. Implementar sistemas que evalúen la confianza, coherencia y relación de inferencia lógica de la cadena de pensamiento (p. ej., *Selective Filtering Reasoner*) para que el sistema pueda eludir la ruta de razonamiento o solicitar aclaraciones si se detecta una alta incertidumbre o inconsistencia.