RDT-1B

Paper

针对双手的操作, 提出Robotics Diffusion Transformer model.

基于Diffusion模型表示多模态, 通过Transformer模型来处理多模态输入的”heterogeneity”(不同的robot有不同的input格式, 不同的action space)并捕捉robotic data的non-linear,high-frequent的特性. 引入Physically Interpretable Unified Action Space, 解决数据缺少的问题.

Introduce

对DiT框架进行修改

使用Physically Interpretable Unified Action Space, 适用于各种gripper arm的机器人的统一的运动格式, 扩大了数据集

双手操作的操作空间的维度会比单臂机器人的更高

VLA由于数据空间的离散化, 对于双手的任务, 会产生误差和不协调

Problem formulation and challenges

使用: 两个gripper和三个摄像头

$o_{t} := (X_{t - T_{im g} + 1 : t + 1}, z_{t}, c)$ , 其中 $X_{t - T_{im g} + 1 : t + 1} = (X_{t - T_{im g} + 1}, \dots, X_{t})$ 是大小为 $T_{im g}$ 的RGB观测历史, $z_{t}$ 是机器人的low-dimensional感知, $c$ 是控制频率. $a_{t}$ 通常是 $z_{t + 1}$ 的一个子集 Have Question Here

由于双手数据集少, 所以使用pretrain and fine-tune的方式进行训练. 在单手+双手的数据集 $D_{pre}$ 上进行pretrain, 然后在target robot的数据集 $D_{ft}$ 上进行fine-tune.

数据集包含 $D_{i} = {(l^{(i)}, o_{t}^{(i)}, a_{t}^{(i)}) ∣0 \leq t \leq T^{(i)}, 1 \leq i \leq N}$ , $T^{(i)}$ 是第 $i$ 条数据的长度, $N$ 是总共有多少条数据

Challenges

有足够的泛化能力, 有足够的表达能力
在heterogeneous data中进行训练

Robotics Diffusion Transformer

Diffusion

由于多模态性, 给定instruction $l$ 和观测 $o_{t}$ , 可能存在很多的动作 $a_{t}$ 来推进任务. 防止采样一个平均值导致invalid action, 选择使用continuous conditional distribution: $p (a_{t} ∣ o_{t}, l)$ . 有很好的质量和表达能力, 但是计算资源消耗大. 但是 $a_{t}$ 的维度远小于图像, 因此可以接受

过程:

Knowledge Base

Explorer

RDT-1B

RDT-1B

Introduce

Problem formulation and challenges

Robotics Diffusion Transformer

Diffusion

Encoding of Heterogeneous Multimodal Inputs

$f_{θ}$ 的网络架构

Data

Graph View

Table of Contents

Backlinks

Knowledge Base

Explorer

RDT-1B

RDT-1B

Introduce

Related Work

Problem formulation and challenges

Robotics Diffusion Transformer

Diffusion

Encoding of Heterogeneous Multimodal Inputs

fθ​的网络架构

Data

Graph View

Table of Contents

Backlinks

$f_{θ}$ 的网络架构