Goal Condition

Paper

motivate: 使用model-free的RL, 在不需要对时间和state的repr进行low-level建模environment的情况下, 获得类似model-based的temporal compositionality的好处(意思是, model-based的方法需要对environment建模, 这其中涉及到state和time的表示. 现在使用model-free的方法, 不对这两个建模, 并且也能获得类似model-based的temporal compositionality的好处)

一种避免详细建模的方法是对抽象层面进行规划: 简化state和transition的表达.

结合model-free RL和model-based planning

background

MDP: $⟨ S, G, A, p, R, T_{max}, ρ_{0}, ρ_{G} ⟩$ , S: state, G: goal, A: action, $p (s_{t + 1} ∣ s_{t}, a_{t})$ : time-invariant动态函数, R: reward, $T_{max}$ : maximum horizon, $ρ_{0}$ : initial distribution(state), $ρ_{G}$ : target distribution

目标是通过 $π (a_{t} ∣ s_{t}, g, t)$ 来最大化 $E [\sum_{t = 0}^{T_{max}} R (s_{t}, g, t)]$ . $s \sim ρ_{0}$ , $a_{t} \sim π (a_{t} ∣ s_{t}, g, t)$ , $s_{t + 1} \sim p (s_{t + 1} ∣ s_{t}, a_{t})$

Planning with Goal-Conditioned Policies

Value function: $ $V^{π} (s, g, t) = E [\sum_{t^{'} = t}^{T_{max}} R (s_{t^{'}}, g, t^{'}) ∣ s_{t} = s, π is conditioned on g]$ $ TDM:

R_{T D M} (s, g, t) = - δ (t = T_{max}) \cdot d (s, g)

Planning over subgoals

定义可行性向量:

V (s, g_{1 : K}, t_{1 : K + 1}, g) = V (s, g_{1}, t_{1}) V (g_{1}, g_{2}, t 2) ⋮ V (g_{K - 1}, g_{K}, t_{K}) V (g_{K}, g, t_{K + 1})

表达了可行性的度量, 而V越小代表state和goal之间的差距越小. 那么希望feasible vector全为零, 使用norm:

L (g_{1 : K}) = ∥ V (s, g_{1 : K}, t_{1 : K + 1}, g) ∥

Optimizing over images

对 $g_{1 : K}$ 进行优化, 但是如果对于图片而言, $g_{1 : K}$ 维度很高. 并且优化的feasible solution必须是数据集的一部分(必须是有意义且能做出来的动作)

当 $g_{1 : K}$ 的维度 $r$ 远小于数据样本个数 $N$ 时, 可以使用VAE学习潜在空间.

因此objective function变成:

Knowledge Base

Explorer

LEAP

Goal Condition

background

Planning with Goal-Conditioned Policies

Planning over subgoals

Optimizing over images

Goal-Conditioned Reinforcement Learning

Graph View

Table of Contents

Backlinks