Learning Goal-Conditioned Representations for Language Reward Models

motivate: 改进reward model学习的repr, 以实现language model的对齐.

提高了数学推理中识别 正确/错误的solution 的能力

使用 RLHF + RL 的范式

Method

Preliminaries

Preference ranking reward modeling for LMs

奖励模型参数化: . 给定prompt 和completion sequence of tokens , 返回一个scalar reward. 给定preference triple 组成的数据库, 有Loss:

其中reward model 是 对整个 提供标量反馈