RLHF

Panacea: Pareto Alignment via Preference Adaptation for LLMs

Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to …

Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Haojun Chen, Qingfu Zhang, Siyuan Qi, Yaodong Yang