RT-1

Paper

希望能够找到一个泛化能力强, 能吸收大量知识的模型架构.

Intro

创建了新的数据集

Transformer模型: 高容量

对高维的input/output进行tokenize, 生成token用于transformer计算

Preliminaries

Robot learning

类似于RL目标是从视觉中学习解决language-conditioned任务的robot policies.

考虑顺序决策环境(sequential decision-making environment):

timestamp $t = 0$ : policy $π$ receive language instruction $i$ and initial image observation $x_{0}$ .
- policy generate a action distribution: $π (\cdot ∣ i, x_{0})$ from which the action $a_{0}$ is sampled, and applied to robot.
过程持续进行, policy通过从学习到的distribution: $π (\cdot ∣ i, {x_{j}}_{j = 0}^{t})$ 中采样action $a_{t}$ , 应用于robot
到达终止条件时, 交互结束.

从starting step $t = 0$ 开始到终止条件 $T$ 的完整交互 $i, {x_{j}}_{j = 0}^{T}$ 称为一个episode. 结束时, 给一个reward $r \in {0, 1}$ 表示是否完成了 $i$ .

target是学一个 $π$ 能够maximize average reward, in expectation over distribution of instruction,starting step $x_{0}$ and transition dynamic

Transformer

Imitation Learning

假设有一个可访问的dataset $D = {(i^{(n)}, {x_{t}^{(n)}, a_{t}^{(n)}}_{t = 0}^{T^{(n)}})}_{n = 0}^{N}$ , 其中所有的episode都是success的( $r = 1$ ).

Info

Behavioral Cloning

或者称作模仿学习(IL, Imitation Learning)

假设已经有了一个expert的动作 $a^{expert}$ , 我们需要通过最小化预测的动作和 $a^{expert}$ 差异来进行学习

事实上, 这还是一个reinforcement learning, 只是结合了一下deep learning
$\overset{a}{^} = π_{θ} (s)$ $L = \frac{1}{N} i = 1 \sum N ∥ \overset{a}{^}_{i} - a_{i}^{expert} ∥_{2}^{2}$

我们可以使用Behavioral Cloning来学习 $π$ , 通过minimize给定 $i$ 和图像的 $a_{t}$ 的negative log-likelihood进行对 $π$ 的优化

Knowledge Base

Explorer

RT-1

RT-1

Intro

Preliminaries

Robot learning

Transformer

Imitation Learning

System Overview

RT-1

Graph View

Table of Contents

Backlinks