Learning Goal-Conditioned Representations for Language Reward Models
Paper
motivate: 改进reward model学习的repr, 以实现language model的对齐.
提高了数学推理中识别 正确/错误的solution 的能力
使用 RLHF + RL 的范式
Method
Preliminaries
Preference ranking reward modeling for LMs
奖励模型参数化: . 给定prompt 和completion sequence of tokens , 返回一个scalar reward. 给定preference triple 组成的数据库, 有Loss:
其中reward model 是 对整个 提供标量反馈