Language to Reward for Robotic Skill Synthesis

使用LLM定义reward parameter以增强RL

Method

Background and Reward Interface

定义MDP问题: , 其中是state space, 是action space, 是reward function, 是动态方程(在经过action之后得到state), 是initial state distribution.

给定奖励函数, optimal controller能找到最大化reward的动作序列, 其中是roll-out horizon

假设reward有特殊的形式, 满足MJPC:

其中

  • 是权重
  • 是二阶可微的范数(norm), 最小值为
  • 是残差, 当的时候达到最优
  • 是第项的参数

使用LLM调整, 自动生成针对不同task的reward

Reward Translator

Motion Description

  • 使用Motion Descriptor LLM, 将user input解释和拓展成描述期望的robot motion的自然语言描述
    • 可以对比较简单的任务生成reward, 对于复杂任务经常失败
    • 但是可以对复杂任务的motion生成description
  • 因此使用template, 让LLM直接生成Motion的自然语言description

Reward Coding

使用LLM生成reward function的API调用

Motion Controller

使用Model Predictive Control(MPC).

每一步MPC规划一个sequence的optimized action , 并将其发送给robot. robot执行之后将state返回给MJPC planner, MJPC生成下一步的plan.