-Policy

motivate: 通过与环境的交互来识别解决任务的优化行为. 能否通过一种方法为policy optimize提供更dense的shaping reward?

考虑最小化agent’s state visitation和goal distribution (假设每一个goal可以被represented成一个distribution. 最简单的是Dirac distribution), 以提供额外的learning signals.

Background

LEAP: 使用feasible vector确定sub-goal, 然后policy进行生成action. 但是本篇主要是针对one goal的情况, goal的选取不在本篇的考虑之内.

MDP: . 其中, 是状态空间, 是动作空间, 是目标集合, 是转移概率(其中, 表示对集合的probability distribution), 是discount factor, 是初始状态分布, 是目标分布. 在一个episode开始时, 从分布中采样初始状态和目标.

reward 基于agent的状态和goal的约束.

关注sparse的reward

Trajectory: 定义轨迹. 累计reward . 学习policy 满足最大化预期reward , 得到最优策略

Distribution matching: 轨迹的概率定义为 . 定义状态在轨迹中被访问的次数. 定义agent的goal-conditioned state visitation:

定义f-divergences: $$

f-divergence
FKLUndefined
RKL0
JS
Undefined

-Policy Gradient

通过最小化goal和policy导向的最终state distribution的散度, 来学习一个policy:

有类似reinforce的问题, 上述梯度的计算完全依赖于on-policy updates. 使用类似proximal policy optimization的clipped objective:

其中, , .

  1. for :
    1. for :
      1. sample , set
      2. 收集goal-conditioned trajectories
      3. 使用上的KDE进行Fit
      4. 里面的每一个state , 存储
    2. for