paper
Motivation
文章任务现在的主流VLA模型, 将robot action离散化成token(如, FAST, FASTer, pi0.5等). 但是认为现在的tokenizer存在设计问题:
- 过度关注精度. 现有的tokenizer(如, VQ-VAE)主要以最小化重建误差为目标, 但是忽略了tokenize方式对VLA模型优化效率和训练稳定性造成的影响
- 不了解什么样的token sequence最有利于VLM学习action
- 有时更先进的数据分词方法反而不如简单的分词方法(如, RT-2和OpenVLA的bin)
Contribution
- 本文从信息论的角度分析了VLA优化的NLL(负对数似然损失), 分解为容量、感知对齐、伪影熵(Artifact Entropy)等部分.
- 提出高性能action token的四个关键要素:
- 高时间重叠率: 两个连续的action chunk之间有多少token重叠
- 低词汇冗余: 在满足action重建的需求上, 尽可能压缩token的数量和codebook的大小
- 强多模态互信息: token与视觉观测、语言指令之间的相关性, 即“感知对齐”
- token独立性: 同一个action chunk内部, 各个token之间不应该存在显式相互依赖的关系(即, 最小化“残差语法”, residual grammar)
- 提出ActionCodec, 基于Perceiver架构的高性能tokenizer, 支持cross-embodiment的知识迁移
- 无需pre-train, 在LIBERO等benchmark中取得sota
Key of Tokenizer
Temporal Overlap Rate (OR)
两个相邻的chunk 和 之间重叠的token数量. . 这个的目的是为了维持解码的稳定性. 两个chunk之间有大量的action重复(执行和推理之间的权衡. 一般是推理一整个chunk但是执行其中的一部分, 执行结束之后再次推理), 因此两个chunk解码的结果要尽可能相似, 于是提出了OR
Vocabulary Redundancy
假设token的数量为, codebook大小为. 那么信息瓶颈的上线为. 经过测试发现, 是性能与复杂度的平衡