FAST

Paper

问题: 在high frequency控制的时候, 需要预测一个action chunk, 但是由于一个chunk中的action过于相关, 因此VLA可能会倾向于预测重复的action以达到一个比较差的local optima

使用discrete cosine transform(DCT)将连续的action chunk转换成离散的多个cosine函数的加和

使用离散的token进行训练, Frequency-space Action Sequence Tokenization(FAST), 和pi0集成, 能够在双臂机器人上实现相近的表现, 并且缩短将近5倍的训练时间

Preliminaries

Problem formulation

policy $π (a_{1 : H} ∣ o)$

action tokenizer $T_{a} : a_{1 : H} \mapsto [T_{1}, \dots, T_{n}]$

由于分词不同, 可能相同长度的action chunk $a_{1 : H}$ 对应不同的 $n$

Binning-based action tokenization

直接将action根据不同的维度分到离散的bin中

问题: 一个action有多个维度, 可能会导致bin太多, 导致训练速度变慢

原因:

使用自回归的方式进行next token prediction, 相当于是在给定 $T_{1 : i - 1}$ 的情况下预测 $T_{i}$ .

但问题在于:

这让训练收敛速度变慢

如: OpenVLA在low-frequency的BridgeV2和RT-1数据集中表现良好, 但是在high-frequency的DROID数据集中表现较差