7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Salidas inconsistentes con razonamiento chain-of-thought

El razonamiento en cadena de pensamiento (Chain-of-Thought o CoT) es una técnica implementada para mejorar la interpretabilidad de los modelos de IA, buscando exponer su proceso lógico interno a través de texto. No obstante, se ha observado que en ocasiones esta 'explicación' paso a paso resulta ser inconsistente con el resultado final que ofrece el modelo. Cuando esto sucede, la transparencia prometida por la CoT se desvanece, lo que dificulta significativamente la auditoría y comprensión de por qué el modelo llegó a una conclusión específica [113].

Fuente: MIT AI Risk Repositorymit1011

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1011

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.4 > Falta de transparencia o interpretabilidad

Estrategia de mitigacion

1. Implementación de técnicas de *Chain-of-Thought* Fiel (*Faithful CoT*). Este enfoque prioriza la alineación estricta entre el razonamiento intermedio (CoT) y el resultado final del modelo, mediante el uso de lógica simbólica o un entrenamiento especializado que penalice la inconsistencia para prevenir la racionalización *post-hoc*. 2. Aplicación de estrategias de Auto-Consistencia (*Self-Consistency*) y verificación. Generar múltiples cadenas de razonamiento y seleccionar la respuesta más robusta y consistente entre ellas. Esta técnica debe complementarse con la integración de la Generación Aumentada por Recuperación (RAG) para fundamentar los pasos lógicos en evidencia externa y verificable. 3. Desarrollo de monitores de *Chain-of-Thought* y mecanismos de filtrado selectivo. Implementar sistemas que evalúen la confianza, coherencia y relación de inferencia lógica de la cadena de pensamiento (p. ej., *Selective Filtering Reasoner*) para que el sistema pueda eludir la ruta de razonamiento o solicitar aclaraciones si se detecta una alta incertidumbre o inconsistencia.