GRAPE

Paper

Introduce

解决问题:

使用轨迹级别的偏好对齐(Trajectory-wised Preference Optimization, TPO) 和隐式奖励建模, 从成功和失败的轨迹中学习, 提升泛化性, 并支持自定义目标(安全性, 效率)来调整策略

自动生成多阶段cost function, 避免人工标注preference的高成本

轨迹对齐, 模仿dataset的轨迹:

L_{SFT} = - (ζ, q) \in D \sum t = 1 \sum T lo g p (a_{t} ∣ o_{t}, q; π_{θ})

其中数据集 $D = {(ζ_{1}, q_{1}), \dots, (ζ_{n}, q_{n})}$ 是expert dataset

RL目标:

max_{π_{θ}} E_{ζ \sim π_{θ}} [r_{ϕ} (ζ)] - β D_{K L} [π_{θ} (ζ) ∥ π_{re f} (ζ)]

$π_{re f}$ 是SFT之后的模型. 使用RL进行fine-tune, $r_{ϕ}$ 是强化学习自身的reward

定义一个针对trajectory的reward $r$ :

r (ζ, q) = β lo g \frac{π _{θ} ( ζ ∣ q )}{π _{re f} ( ζ ∣ q )} + β lo g Z (ζ)

其中, $π (ζ ∣ q) = \prod_{i} π (a_{i} ∣ (o_{i}, q))$ 是似然, $Z$ 是根据Direct preference optimization: Your language model is secretly a reward modal定义的分配函数. 将轨迹 $ζ$ 分解成action和observe, 有:

lo g \frac{π _{θ} ( ζ , q )}{π _{re f} ( ζ , q )} = t = 1 \sum T lo g \frac{π _{θ} ( a _{t} ∣ ( o _{t} , q ))}{π _{re f} ( a _{t} ∣ ( o _{t} , q ))}

使用Bardley-Terry model进行偏好选择: