paper

Motivation

文章任务现在的主流VLA模型, 将robot action离散化成token(如, FAST, FASTer, pi0.5等). 但是认为现在的tokenizer存在设计问题:

过度关注精度. 现有的tokenizer(如, VQ-VAE)主要以最小化重建误差为目标, 但是忽略了tokenize方式对VLA模型优化效率和训练稳定性造成的影响
不了解什么样的token sequence最有利于VLM学习action
有时更先进的数据分词方法反而不如简单的分词方法(如, RT-2和OpenVLA的bin)

Contribution

本文从信息论的角度分析了VLA优化的NLL(负对数似然损失), 分解为容量、感知对齐、伪影熵(Artifact Entropy)等部分.
提出高性能action token的四个关键要素:
1. 高时间重叠率: 两个连续的action chunk之间有多少token重叠
2. 低词汇冗余: 在满足action重建的需求上, 尽可能压缩token的数量和codebook的大小
3. 强多模态互信息: token与视觉观测 $V$ 、语言指令 $L$ 之间的相关性, 即“感知对齐”
4. token独立性: 同一个action chunk内部, 各个token之间不应该存在显式相互依赖的关系(即, 最小化“残差语法”, residual grammar)
提出ActionCodec, 基于Perceiver架构的高性能tokenizer, 支持cross-embodiment的知识迁移
无需pre-train, 在LIBERO等benchmark中取得sota

Key of Tokenizer

Temporal Overlap Rate (OR)

两个相邻的chunk $A_{t}$ 和 $A_{t + 1}$ 之间重叠的token数量. $A_{t} = {a_{t}, a_{t + 1}, \dots, a_{t + H}}, A_{t + 1} = {a_{t + 1}, \dots, a_{t + 1 + H}}$ . 这个的目的是为了维持解码的稳定性. 两个chunk之间有大量的action重复(执行和推理之间的权衡. 一般是推理一整个chunk但是执行其中的一部分, 执行结束之后再次推理), 因此两个chunk解码的结果要尽可能相似, 于是提出了OR

Vocabulary Redundancy

词汇表冗余

假设token的数量为 $n$ , codebook大小为 $S$ . 那么信息瓶颈的上线为 $n lo g_{2} S$ . 经过测试发现, $n = 16, S = 2048$ 是性能与复杂度的平衡

Multimodal Mutual Information

多模态互信息

Knowledge Base

Explorer

2602.15397