RoCo

Paper

使用LLM进行高层通信和低层路径规划, 提供环境反馈. 引入了RoCoBench, 多机器人写作的基准测试.

Introduce

使多机器人合作, 需要对高层的任务有理解, 并考虑每一个机器人的能力.

提出了RoCo, 一种零样本(zero-shot)多机器人协作的方法:

对话式任务协调: 将每一个robot委托给一个LLM代理, 使robot可以使用natural language进行讨论
LLM生成并通过反馈改进的子任务计划: multi-agent的对话最终会为每一个代理生成一个子任务. 提供反馈(如碰撞和IK failed), 直到LLM提出一个合理的方案
基于LLM的关节空间运动规划: 验证后的子任务中, 提取robot joint space中的目标配置(goal configuration), 使用centralized RRT-sampler去规划motion trajectories. (利用了LLM的3D空间推理)
- 给定任务空间中的起点, 目标和障碍物位置, 展示了LLM可以生成可以包含任务语义和环境约束的路径点, 并显著降低了运动规划的采样复杂度?

RoCoBench:

任务假设:

含有 $N$ 个robot agent, 有限时间 $T$ , 完全观测空间 $O$
第 $n$ -th个代理有观测空间 $Ω^{n} \subset O$ . agent可能有非对称的观测空间, 因此通讯是必要的.
define description functions $f$ , 任务语义 $g$ , observation variable over time-step $t$ : $o_{t} \in Ω^{n}$ , 得到自然语言的描述 $l_{t}^{n} = f^{n} (g^{n}, o_{t})$
定义解析函数, 将自然语言的任务描述映射到具体的子任务. 这些子任务can be described by one or more gripper goal configuration

多臂路径规划:

$X \in R^{d}$ 是所有 $N$ 个机器人臂的关节配置空间. $X_{o b}$ 是configuration space中的obstacle, 无碰撞空间为 $X_{f ree} = X / X_{o b}$
初始条件 $x_{ini t} \in X_{f ree}$ , 目标区域 $x_{g o a l} \in X_{f ree}$
找到一条最优路径 $σ^{*} = [0, 1] \to X$ , 满足 $σ^{*} (0) = x_{ini t}, σ^{*} (1) = x_{g o a l}$

使用Transformer based LLM进行生成对话和action.

需要通信协调agents非对称的observation space

每次环境交互之前先进行一轮对话,

任务	任务分解	观测空间	工作空间重叠
清扫地板	并行	非对称	中
打包杂货	并行	共享	中
移动绳索	并行	共享	高
整理橱柜	顺序	非对称	高
制作三明治	顺序	非对称	低
分类立方体	顺序	共享	低