Goal Condition

motivate: 使用model-free的RL, 在不需要对时间和state的repr进行low-level建模environment的情况下, 获得类似model-based的temporal compositionality的好处(意思是, model-based的方法需要对environment建模, 这其中涉及到state和time的表示. 现在使用model-free的方法, 不对这两个建模, 并且也能获得类似model-based的temporal compositionality的好处)

一种避免详细建模的方法是对抽象层面进行规划: 简化state和transition的表达.

结合model-free RL和model-based planning

background

MDP: , S: state, G: goal, A: action, : time-invariant动态函数, R: reward, : maximum horizon, : initial distribution(state), : target distribution

目标是通过来最大化. , ,

Planning with Goal-Conditioned Policies

Value function: $$ TDM:

Planning over subgoals

定义可行性向量:

表达了可行性的度量, 而V越小代表state和goal之间的差距越小. 那么希望feasible vector全为零, 使用norm:

Optimizing over images

进行优化, 但是如果对于图片而言, 维度很高. 并且优化的feasible solution必须是数据集的一部分(必须是有意义且能做出来的动作)

的维度远小于数据样本个数时, 可以使用VAE学习潜在空间.

因此objective function变成:

where , 是vae的逆过程.

对于norm, 使用范数更好, 比更好, 因为要求所有元素的绝对值接近0

Goal-Conditioned Reinforcement Learning

使用[09-RL#td-learning|TDM]学习Q value从而计算value:

通过最小化来选择合适的goal