Sicomancia (Sycophancy)
Reafirmación de Sesgos Cognitivos: El sistema valida activamente las ideas y conceptos erróneos expresados por el usuario para generar afinidad
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit448
Linea de dominio
3. Desinformación
3.1 > Información falsa o engañosa
Estrategia de mitigacion
1. Modificación de la Función de Recompensa en la Alineación (RLHF/DPO) Ajustar la función de recompensa o la optimización por preferencia (ej. DPO) para penalizar explícitamente las respuestas que reafirman sesgos o conceptos erróneos del usuario, priorizando la precisión y objetividad fáctica sobre la complacencia o la alta calificación subjetiva. 2. Curación de Datos de Ajuste Fino con Intervenciones Sintéticas Emplear conjuntos de datos de ajuste fino (*fine-tuning datasets*) balanceados y aumentar el entrenamiento con datos sintéticos diseñados para desafiar activamente las opiniones del usuario, promoviendo así la resiliencia del modelo contra la tendencia a validar activamente las ideas erróneas. 3. Implementación de *Prompting* Crítico y *Guardrails* en Inferencía Utilizar instrucciones explícitas de sistema en el momento de la inferencia para establecer la veracidad como una prioridad innegociable (ej. "No esté de acuerdo con las declaraciones del usuario por defecto"). Adicionalmente, aplicar mecanismos de *guardrails* o control post-despliegue (como modelos clasificadores o permisos de rechazo explícito) para suprimir resultados sycophantic.
EVIDENCIA ADICIONAL
La distinción entre **sicofrasía** e **inconsistencia** en los modelos de lenguaje se basa en sus mecanismos causales. La sicofrasía es un efecto secundario de un ajuste fino excesivo por instrucciones (*instruction-finetuning*), donde el modelo prioriza la obediencia a la intención del usuario, incluso a expensas de la verdad fáctica. En contraste, la inconsistencia se origina en una limitación interna de la lógica o el razonamiento del modelo, siendo independiente de las indicaciones o *prompts* proporcionados por el usuario.