Language to Reward for Robotic Skill Synthesis
Paper
使用LLM定义reward parameter以增强RL
Method
Background and Reward Interface
定义MDP问题: , 其中是state space, 是action space, 是reward function, 是动态方程(在经过action之后得到state), 是initial state distribution.
给定奖励函数, optimal controller能找到最大化reward的动作序列, 其中是roll-out horizon
假设reward有特殊的形式, 满足MJPC:
其中
- 是权重
- 是二阶可微的范数(norm), 最小值为
- 是残差, 当的时候达到最优
- 是第项的参数
使用LLM调整和, 自动生成针对不同task的reward
Reward Translator
Motion Description
- 使用Motion Descriptor LLM, 将user input解释和拓展成描述期望的robot motion的自然语言描述
- 可以对比较简单的任务生成reward, 对于复杂任务经常失败
- 但是可以对复杂任务的motion生成description
- 因此使用template, 让LLM直接生成Motion的自然语言description
Reward Coding
使用LLM生成reward function的API调用
Motion Controller
使用Model Predictive Control(MPC).
每一步MPC规划一个sequence的optimized action , 并将其发送给robot. robot执行之后将state返回给MJPC planner, MJPC生成下一步的plan.