RDT-1B

针对双手的操作, 提出Robotics Diffusion Transformer model.

基于Diffusion模型表示多模态, 通过Transformer模型来处理多模态输入的”heterogeneity”(不同的robot有不同的input格式, 不同的action space)并捕捉robotic data的non-linear,high-frequent的特性. 引入Physically Interpretable Unified Action Space, 解决数据缺少的问题.

Introduce

DiT框架进行修改

使用Physically Interpretable Unified Action Space, 适用于各种gripper arm的机器人的统一的运动格式, 扩大了数据集

双手操作的操作空间的维度会比单臂机器人的更高

VLA由于数据空间的离散化, 对于双手的任务, 会产生误差和不协调

Problem formulation and challenges

使用: 两个gripper和三个摄像头

, 其中是大小为的RGB观测历史, 是机器人的low-dimensional感知, 是控制频率. 通常是的一个子集 Have Question Here

由于双手数据集少, 所以使用pretrain and fine-tune的方式进行训练. 在单手+双手的数据集上进行pretrain, 然后在target robot的数据集上进行fine-tune.

数据集包含, 是第条数据的长度, 是总共有多少条数据

Challenges

  • 有足够的泛化能力, 有足够的表达能力
  • 在heterogeneous data中进行训练

Robotics Diffusion Transformer

Diffusion

由于多模态性, 给定instruction 和观测, 可能存在很多的动作来推进任务. 防止采样一个平均值导致invalid action, 选择使用continuous conditional distribution: . 有很好的质量和表达能力, 但是计算资源消耗大. 但是的维度远小于图像, 因此可以接受

过程:

  1. 采样一个完全噪声的动作, 然后执行步denoise
  2. 去噪: 其中scalar coeffcients pre-defined by a noise schedule.
    • 如果, , , .
    • 否则, . 但是, 在denoise结束之前是无法获取的, 因此选择使用一个含有参数的learnable denoising network 从noise data中估计, 并与真实的做MSE loss:

mathcal L(\theta)=\text{MSE}(\mathbf a_t,f_\theta(l,\mathbf o_t,\sqrt{\bar\alpha^k}\mathbf a_t^k+\sqrt{1-\bar\alpha^k}\epsilon,k))$$ 其中, . 我们将噪声输入表示为

在实践中, 我们更倾向于一次性predict一系列的action(动作块, action chunk), 以鼓励时间一致性(time consistency), 并减少决策次数以减小累积误差:

Encoding of Heterogeneous Multimodal Inputs

  • 低维输入:
    • robot自己传感器的输入(proprioception, action chunk, control frequency)
    • 使用带有傅里叶特征的MLP进行编码, 捕捉高频特征
  • 图像输入:
    • 高维输入, 包含丰富的信息.
    • 使用SigLIP进行提取embedding vector
  • 文字输入:
    • 长度可变, 高度抽象
    • 使用pretrained T5 LLM去提取embedding vector

的网络架构

Norm:

  • 计算cross-attention的时候, 使用QKNorm避免数值不稳定性
  • 使用RMSNorm替换LayerNorm, 避免token偏移和attention偏移 MLP Decoder:
  • 将linear decoder替换成non-linear的MLP Decoder, 因为robot action本身就是non-linear的 ACI(Alternative condition injection)(交替条件注入):
  • 因为image的维度比text高太多, 因此如果同时在cross-attention中计算, 会导致image的信息掩盖text的信息
  • 因此在进行计算cross-attention的时候, 交替进行计算: 一层计算image信息, 下一层计算text信息

Data

因为有了Physically Interpretable Unified Action Space, 可以heterogeneous multi-robots的数据上进行训练.

该空间设计为:

  • 使用一个单一的空间储存本体感知和动作. 这是因为通常是desired 的一个子集.
  • 设计一个统一的空间, 涵盖了大多数有gripper arm的机器人的主要物理量. 根据物理意义, 将每个robot原始的物理量 填到这个空间的vector的对应位置, 其他位置用padding填充, 从而统一到一个空间中.