Motivation

文章任务现在的主流VLA模型, 将robot action离散化成token(如, FAST, FASTer, pi0.5等). 但是认为现在的tokenizer存在设计问题:

  1. 过度关注精度. 现有的tokenizer(如, VQ-VAE)主要以最小化重建误差为目标, 但是忽略了tokenize方式对VLA模型优化效率和训练稳定性造成的影响
  2. 不了解什么样的token sequence最有利于VLM学习action
  3. 有时更先进的数据分词方法反而不如简单的分词方法(如, RT-2OpenVLA的bin)

Contribution

  1. 本文从信息论的角度分析了VLA优化的NLL(负对数似然损失), 分解为容量、感知对齐、伪影熵(Artifact Entropy)等部分.
  2. 提出高性能action token的四个关键要素:
    1. 高时间重叠率: 两个连续的action chunk之间有多少token重叠
    2. 低词汇冗余: 在满足action重建的需求上, 尽可能压缩token的数量和codebook的大小
    3. 强多模态互信息: token与视觉观测、语言指令之间的相关性, 即“感知对齐”
    4. token独立性: 同一个action chunk内部, 各个token之间不应该存在显式相互依赖的关系(即, 最小化“残差语法”, residual grammar)
  3. 提出ActionCodec, 基于Perceiver架构的高性能tokenizer, 支持cross-embodiment的知识迁移
  4. 无需pre-train, 在LIBERO等benchmark中取得sota

Key of Tokenizer

Temporal Overlap Rate (OR)

https://github.com 重叠率

两个相邻的chunk 之间重叠的token数量. . 这个的目的是为了维持解码的稳定性. 两个chunk之间有大量的action重复(执行和推理之间的权衡. 一般是推理一整个chunk但是执行其中的一部分, 执行结束之后再次推理), 因此两个chunk解码的结果要尽可能相似, 于是提出了OR

Vocabulary Redundancy

词汇表冗余

假设token的数量为, codebook大小为. 那么信息瓶颈的上线为. 经过测试发现, 性能与复杂度的平衡

Multimodal Mutual Information

多模态互信息