Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning

Paper

通过从LLM中整合和任务相关的先验来获取语义上interpretable latent reward, 从而增强reward decomposition, 以获取更好的RL

Preliminary

MPD可以定义为 $M = ⟨ S, A, γ, p, r ⟩$ , 其中 $S$ 是state space, $A$ 是action space, $γ$ 是discount factor(用于reward随时间步衰减), $P (s^{'} ∣ s, a)$ 是environment state transition distribution. 目标是找到policy $π : S \mapsto A$ 满足最大化reward $J (π) = E [\sum_{t = 1}^{T} γ^{t} r (s_{t}, π (s_{t})) ∣ s_{0} \sim η, s_{t + 1} \sim P (\dots ∣ s_{t}, π (s_{t})]$

对于episodic RL, expected episodic reward是 $J_{e p} (π) = E [R (τ) ∣ s_{0} \sim η, a_{t} \sim π (\cdot ∣ s_{t}), τ = ⟨ s_{0}, a_{0}, \dots, s_{T} ⟩]$

通常的一个假设是decomposition of the episodic reward: $R (τ) = \sum_{t = 1}^{T} r (s_{t}, a_{t})$

Latent Reward

Motivation

让reward包含其他implicit factors的表现. 从概念上讲, latent reward的不同dimension表示task performance的不同方向

最终的reward是将latent reward从space $D$ 到 $R$ 的投影. 构建新的episodic RL概率模型:

p (R ∣ s_{1 : T}, a_{1 : T}) = \int decoder f p (r_{t} ∣ z_{r, t}) encoder ϕ p (z_{r, t} ∣ s_{t}, a_{t}) p (R ∣ r_{1 : T}) d z d r

其中 $ϕ : S \times A \mapsto D$ 是从environment中获取latent reward的函数.

使用LLM能够从冗余的environment information中获取interpretable和multifaceted的task performance metrics, 即latent reward

Framework

Input Output Algorithm 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 1. LLM M 2. task information t a s k 3. candidate responses number n 4. pre-collected random state-action pairs \overset{s}{ˉ} 5. max episodes N^{max} 1. policy network π_{θ} 2. reward decoder model f_{ψ} 初始化 policy network 参数 θ, reward decoder 参数 ψ, replay buffer B 获取 candidate response ξ_{1}, \dots, ξ_{n} \leftarrow M (t a s k, ro l e) 总结得出 improved response ξ \leftarrow M (t a s k, ro l e, ξ_{1}, \dots, ξ_{n}) 验证 latent reward encode functino ϕ : err \leftarrow verify (ϕ, \overset{s}{ˉ}); ξ \leftarrow M (t a s k, ro l e, ξ_{1 : n}, err) . 相当于是错误反馈 For e p i so d e = 1 To N^{max} 使用当前 policy 采样一个轨迹 τ B \leftarrow B \cup {r} 从 replay pool B 中采样一个 batch B = {τ_{i}}_{i = 1}^{∣ B ∣} 评估 latent reward. 使用 Loss: L_{RD}^{ϕ} (ψ) = E_{r \sim D} [(R (τ) - t = 1 \sum T f_{ψ} (ϕ (s_{t}, a_{t}))] 使用任意有 predicted proxy reward \overset{r}{^}^{ψ, ϕ} = f_{ψ} (ϕ (s, a)) 的 RL 算法优化 policy EndFor

使用LLM生成response, 类似CoT的方法
总结生成的回复, 生成总结. 根据总结生成代码, 这个代码是计算latent reward的一个函数. 调用这个函数并传入observation, action即可计算得出eval_factors. eval_factors指的是一个list, 里面存放所有的reward
验证latent reward是否是合理的, 能否运行
训练一个decoder. 这个decoder相当于是一个加权求和的Linear Layer.

Knowledge Base

Explorer

LaRe

Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning

Preliminary

Latent Reward

Motivation

Framework

Graph View

Table of Contents

Backlinks