Sycoph.
Adulación
Tendencia del modelo a producir respuestas que confirman las expectativas o creencias del usuario en lugar de proporcionar información objetiva y veraz.
Botai Yuan, Yutian Zhou, Yingjie Wang, Fushuo Huo, Yongcheng Jing, Li Shen, Ying Wei, Zhiqi Shen, Ziwei Liu, Tianwei Zhang, Jie Yang, Dacheng Tao
Estrategia de Mitigación
Fine-tuning específico con énfasis en veracidad objetiva, RLHF que penaliza adulación, y entrenamiento con ejemplos de corrección de misconcepciones.
Número Atómico
38
Sy
ID del riesgo
sr-38
Severidad
5/10
Nivel de Severidad