paper

Motivation: 解决泛化问题.

难以处理OOD(out-of-domain)问题
特定robot的数据太少, 需要有一种模型能够处理异构机器人的数据

主要贡献:

在pi0的基础上, 提出一个分层的模型: high-level提供subtask的预测, low-level提供action的输出
设计了异构数据集的协同训练的方法(并没有开源)
能够在真实世界中进行零样本泛化

pipeline:

分成两个stages.

在pre-train的时候, 仅使用VLM backbone进行训练. 此时所有的action都是用离散的token, 使用FAST进行离散化处理, 以获得更高的效率

在post-train的时候, 给模型添加了action expert, 就是pi0的Gemma 300M以及Flow Matching部分, 以实现更细粒度的控制, 以及更高效的计算

推理的时候, 首先让VLM预测生成subtask的hidden state, 然后low-level model(action expert)生成连续的action

因此数学公式可以表示为:

π_{θ} (a_{t : t + T}, \hat{l} ∣ o_{t}, l) = π_{θ} (a_{t : t + T} ∣ o_{t}, \hat{l}) π_{θ} (\hat{l} ∣ o_{t}, l)

其中:

$o_{t}$ 包含机械臂处的图片以及外置摄像头的图片( $I_{t}^{1}, \dots, I_{t}^{n}$ ), 以及机械臂的本体状态 $q_{t}$
$l$ 是语言文本指令
$a_{t : t + T}$ 是action chunk, action horizon是 $T$
$\hat{l}$ 是预测的subtask hidden state

但是实际上在代码中, 生成 $\hat{l}$ 和action chunk是同步的, 并没有先后顺序. 猜测是因为openpi中并没有给出完整的代码.

并且在代码中, 没有给出训练base model的代码(包括pi0). 特别是pi0.5, 论文中提到的subtask的预测, 并没有任何的loss存在. 应该是由于开源的代码中并没有给出pre-training stage的代码. 推测在pre-train中, 在output embedding后面接了一层lm_head, 将输出转换成token然后进行Cross-Entropy Loss的梯度回传.

为了增加训练的效果(FAST中有提到), 使用离散的token进行训练. 但是为了inference的效率, 仍然需要continuous action space. 因此使用离散token和连续的token同时进行训练.

特别设置了mask: 其中(按照从左到右的顺序, Images+Prompt是VLM能看到的, State和Action Expert是Action Expert的. FAST Action tokens理应是Action Expert部分的. 注意 Action Expert Embeddings仅仅用于提取信息, 后续生成flow matching的向量场):

VLM可以看到: Images + Prompt + State
FAST生成的离散token能够看到VLM的全部信息, 但是看不到Action Expert生成的noisy action embedding. 同时, 因为这里是auto-regressive的生成式模型, 因此这个只能看到自己前面的信息, 看不到自己后面的信息.
Action Expert中, noisy action embedding(用于经过一个action out proj生成Flow Matching的向量场 $v_{t}$ )能看到VLM的全部信息, 但是看不到FAST生成的离散信息. 并且这个embedding能够完全看到自己. 这个embedding仅仅用于提取信息, 不是生成.

但是注意, 这里虽然确实能够防止VLM看到action expert embeddings的信息, 但是梯度仍然能够从action回传到VLM backbone.

Knowledge Base

Explorer

2504.16054

Loss

Pre-Training

Post-Training

AdaRMS

Graph View

Table of Contents

Backlinks