Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning
Paper
通过从LLM中整合和任务相关的先验 来获取 语义上interpretable latent reward, 从而增强reward decomposition, 以获取更好的RL
Preliminary
MPD可以定义为, 其中是state space, 是action space, 是discount factor(用于reward随时间步衰减), 是environment state transition distribution. 目标是找到policy 满足最大化reward
对于episodic RL, expected episodic reward是
通常的一个假设是decomposition of the episodic reward:
Latent Reward
Motivation
让reward包含其他implicit factors的表现. 从概念上讲, latent reward的不同dimension表示task performance的不同方向
最终的reward是将latent reward从space 到的投影. 构建新的episodic RL概率模型:
其中是从environment中获取latent reward的函数.
使用LLM能够从冗余的environment information中获取interpretable和multifaceted的task performance metrics, 即latent reward
Framework
- 使用LLM生成response, 类似CoT的方法
- 总结生成的回复, 生成总结. 根据总结生成代码, 这个代码是计算latent reward的一个函数. 调用这个函数并传入
observation, action
即可计算得出eval_factors
.eval_factors
指的是一个list, 里面存放所有的reward - 验证latent reward是否是合理的, 能否运行
- 训练一个decoder. 这个decoder相当于是一个加权求和的Linear Layer.