ConRFT

Paper

在fine-tuning一个VLM使其执行robotic manipulation的时候, 可能会由于有限且不一致的demonstrations(特别是在contact-rich的环境中), 导致无法得到robust performance

问题:

在fine-tuning中严重依赖于数据集的质量与数量
VLA需要有安全性和成本限制

提出reinforced fine-tuning:

offline阶段, 使用监督学习(BehaviorClone)+Q-learning结合
online阶段, 通过consistency policy的方式进行RL训练

Problem Setup and Preliminaries

定义:

$π_{ϕ_{pre}}$ 是pretrained VLA model, 可以编码visual input(如, RGB image)以及language instructions
$τ = (s_{0}, a_{0}, \dots, s_{H})$ : 是任务的trajectory
$L$ : negative log-likelihood 或者Mean-Squared Error

在SFT(Supervise Fine-Tuning)任务中, 目的是用一个小的labeled demonstrations集合作为训练数据.

VLA目的是 $min_{ϕ} L (τ, ϕ)$ , 即最小化loss(NLL或者MSE)

定义MDP: $M = (S, A, P, r, ρ, γ)$

其中 $s \in S$ 是state, $a \in A$ 是action. 定义 $P (s^{'} ∣ s, a)$ 是environment transition probability. $ρ (s)$ 是初始状态分布. $r (s, a)$ 是reward, 使用 $γ$ 作为discount factor. $π$ 作为policy, 需要maximize reward

Method

Stage 1: Offline Fine-tuning with Cal-ConRFT

pretrained VLA对zero-shot的novel robotic configurations缺乏泛化性, 因此在online之前, 使用小数据集的demonstrations(20-30 trajectory)

Cal-QL (最开始的方法)

为了让Q-function对 out-of-distribution(OOD) 的action也能robust, 使用calibrated [09-RL#q-learning|Q-Learning]进行训练(通过TD Learning加上一个正则化项)

正则化项惩罚超过在OOD的action上Q-value超过reference $V^{μ} (s)$ 的情况

loss:
$L_{Q}^{offline} = α (E_{s \sim D, a \sim π (a ∣ s)} [max (Q_{θ} (s, a), V^{μ} (s))] - E_{s, a \sim D} [Q_{θ} (s, a)]) + \frac{1}{2} E_{(s, a, s^{'}) \sim D} [(Q_{θ} (s, a) - B^{π} \overset{ˉ}{Q}_{\overset{ˉ}{θ}} (s, a))^{2}]$
其中:

$Q_{θ}$ 是使用 $θ$ 作为参数的Q-function

$\overset{ˉ}{Q}_{\overset{ˉ}{θ}}$ 是delayed target Q-function parameterized by $\overset{ˉ}{θ}$

$B^{π} \overset{ˉ}{Q} (s, a) = r (s, a) + γ E_{a^{'} \sim π (a^{'} ∣ s^{'})} [\overset{ˉ}{Q} (s^{'}, a^{'})]$ 是Bellman backup operator

$D$ 是数据集或者叫replay buffer, 收集所有的demonstration

$α$ 是控制conservative(保守性)的惩罚

但是Cal-RL是由small dataset(20-30 demonstrations)进行训练的, 因此policy可能难以泛化到从未见过的state.

为了解决这个问题, 引入BehaviorClone loss(BC loss)来让model模仿演示中的行为, 提供了额外的supervisory signals(监督信号)

将BC loss和Cal-QL结合在consistency-based objective中, 提出了Cal-ConRFT的方法. 这个方法使用consistency policy作为action head来fine-tuning VLA, 解决两个主要的问题:

Knowledge Base

Explorer

ConRFT

ConRFT

Problem Setup and Preliminaries

Method

Stage 1: Offline Fine-tuning with Cal-ConRFT

Stage 2: Online Fine-tuning with HIL-ConRFT

Graph View

Table of Contents

Backlinks