World VLA

整合VLA模型和世界模型

action chunk + 并行解码: 会有误差, 因为大模型主要接触的是image和language模态而非action模态. 因此使用一种动作的注意力掩码, 在生成当前动作时选择性掩码之前的动作

Methods

Problem Formulation

有两个任务, 一个是根据observation生成action chunk(VLA policy), 一个是根据observation和action chunk生成下一帧图片(World Model对动作和世界的理解)

然后WorldVLA Model可以表示为

Architecture

Training Strategy

Special Tokens:

  • [BOS]: begin of sequence
  • [EOS]: end of sequence
  • [BOI]: begin of images
  • [EOI]: end of images
  • [BOA]: begin of actions
  • [EOA]: end of actions

Action Data: [BOS]{text}[BOI]{image}...{image}[EOI][BOA]{action}...{action}[EOA][EOS], 仅对action部分计算loss

World Data:[BOS]{text}[BOI]{image}...{image}[EOI][BOA]{action}...{action}[EOA][EOS][BOI]{image}[EOI], 仅对最后的image计算loss

Attention Mask: 使用(b)方法进行训练, 确保当前动作仅依赖于当前的指令和当前观测到的图片, 与之前的动作没有关系

Training Objective:

使用权重平衡action policy的loss和world model生成图片的loss, 使模型同时具有action policy的能力, 同时有对世界的理解