$f$ -Policy

Paper

motivate: 通过与环境的交互来识别解决任务的优化行为. 能否通过一种方法为policy optimize提供更dense的shaping reward?

考虑最小化agent’s state visitation和goal distribution (假设每一个goal可以被represented成一个distribution. 最简单的是Dirac distribution), 以提供额外的learning signals.

Background

LEAP: 使用feasible vector确定sub-goal, 然后policy进行生成action. 但是本篇主要是针对one goal的情况, goal的选取不在本篇的考虑之内.

MDP: $⟨ S, G, A, P, r, γ, μ_{0}, ρ_{g} ⟩$ . 其中, $S$ 是状态空间, $A$ 是动作空间, $G \subset S$ 是目标集合, $P : S \times A \mapsto Δ (S)$ 是转移概率(其中, $Δ (\cdot)$ 表示对集合的probability distribution), $γ \in [0, 1)$ 是discount factor, $μ_{0}$ 是初始状态分布, $ρ_{g} : Δ (G)$ 是目标分布. 在一个episode开始时, 从分布 $μ_{0}$ 和 $ρ_{g}$ 中采样初始状态 $s_{0}$ 和目标 $g$ .

reward $r : S \times A \mapsto R$ 基于agent的状态和goal的约束.

关注sparse的reward

Trajectory: 定义轨迹 $τ = (s_{0}, a_{0}, \dots, s_{T - 1}, a_{T - 1}, s_{T})$ . 累计reward $H_{g} (s) := \sum_{t = 0}^{T} [γ^{t} r (s_{t} + 1, g) ∣ s_{0} = s]$ . 学习policy $π : S \times G \mapsto Δ (A)$ 满足最大化预期reward $E_{π, s_{0}} [H_{g} (s_{0})]$ , 得到最优策略 $π^{*} = ar g max_{π_{θ} \in Π} E_{π, s_{0}} [H_{g} (s_{0})]$

Distribution matching: 轨迹的概率定义为 $p_{θ} (τ, g) = p (s_{0}) \prod_{t = 0}^{T} p (s_{t} ∣ s_{t - 1}, a_{t - 1}) π_{θ} (a_{t} ∣ s_{t}, g)$ . 定义状态 $s$ 在轨迹 $τ$ 中被访问的次数 $η_{τ} (s)$ . 定义agent的goal-conditioned state visitation:

p_{θ} (s, g) = \frac{\int p _{θ} ( τ , g ) η _{τ} ( s ) d τ}{Z} = \frac{\int \prod p ( s _{t + 1} ∣ s _{t} , a _{t} ) π _{θ} ( a _{t} ∣ s _{t} , g ) η _{τ} ( s ) d τ}{\int\int \prod p ( s _{t + 1} ∣ s _{t} , a _{t} ) π _{θ} ( a _{t} ∣ s _{t} , g ) η _{τ} ( s ) d τ d s}

定义f-divergences: $ $D_{f} (P ∥ Q) = \int_{P > 0} P (x) f (\frac{Q ( x )}{P ( x )}) d x - f^{'} (\infty) Q ([P (x) = 0])$ $

f-divergence	$D_{f} (P ∥ Q)$	$f (u)$	$f^{'} (u)$	$f^{'} (\infty)$
FKL	$\int P (x) lo g \frac{P ( x )}{Q ( x )} d x$	$u lo g u$	$1 + lo g u$	Undefined
RKL	$\int Q (x) lo g \frac{Q ( x )}{P ( x )} d x$	$- lo g u$	$- \frac{1}{u}$	0
JS	$\frac{1}{2} \int P (x) lo g \frac{2 P ( x )}{P ( x ) + Q ( x )} + Q (x) lo g \frac{2 Q ( x )}{P ( x ) + Q ( x )} d x$	$u lo g u - (1 + u) lo g \frac{1 + u}{2}$	$lo g \frac{2 u}{1 + u}$	$lo g 2$
$χ^{2}$	$\frac{1}{2} \int Q (x) (\frac{P ( x )}{Q ( x )} - 1)^{2} d x$	$\frac{1}{2} (1 - u)^{2}$	$u$	Undefined

$f$ -Policy Gradient

通过最小化goal和policy导向的最终state distribution的散度, 来学习一个policy:

J (θ) = D_{f} (p_{θ} (s) ∥ p_{g} (s))

\nabla_{θ} J (θ) = E_{τ \sim p_{θ} (τ)} [[t = 1 \sum T \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t})] [t = 1 \sum T f^{'} (\frac{p _{θ} ( s _{t} )}{p _{g} ( s _{t} )})]]

有类似reinforce的问题, 上述梯度的计算完全依赖于on-policy updates. 使用类似proximal policy optimization的clipped objective:

\nabla_{θ} J (θ) = E_{s_{t}, a_{t} \sim p_{θ^{'}} (s_{t}, a_{t})} [min (r_{θ} (s_{t}) F_{θ^{'}} (s_{t}), c l i p (r_{θ} (s_{t}), 1 - ϵ, 1 + ϵ) F_{θ^{'}} (s_{t}))]

Knowledge Base

Explorer

f-policy

$f$ -Policy

Background

$f$ -Policy Gradient

Graph View

Table of Contents

Backlinks

Knowledge Base

Explorer

f-policy

f-Policy

Background

f-Policy Gradient

Graph View

Table of Contents

Backlinks

$f$ -Policy

$f$ -Policy Gradient