OpenVLA-OFT

Paper

motivate: 解决问题:

VLA+LoRA可以实现低参数高效finetune, 但是推理速度太慢(3-5 Hz), 无法满足高频控制的需求(25-50+ Hz). 使用更好的action tokenization能够有 2-13 $\times$ 的加速, 但是两个chunk之间的延迟(750ms)是对真实世界部署的限制.
在双臂(bimanual manipulation)任务中, 表现往往难以满足期望.

使用OpenVLA作为基本模型.

三个key design choice:

action decoding scheme:
- 自回归
- 并行生成
action representation:
- 连续
- 离散
learning objective
- next-token prediction (Transformer, LLM)
- L1 Regression (回归)
- Diffusion

结论:

使用FiLM对文本进行增强

Preliminaries

Action Chunking:

可以提高成功率

但是使用OpenVLA的auto-regressive的范式推理速度太慢(0.33s/token), 因此使用其他的方法做action chunking

问题:

比较了一些不同的方法(Introduce的3个key design choice)