前置: 05-BayesNetwork, 06-BayesInference, 07-Probabilistic

Markov Decision Process

是Non-deterministic的搜索算法

假定了下一时刻的状态只和当前事态的状态和当前时刻的action有关, 与之前的状态和动作无关

P (S_{t + 1} = s^{'} ∣ S_{t} = s_{t}, A_{t} = a_{t}, s_{t - 1} = s_{t - 1}, \dots, S_{0} = s_{0}) = P (S_{t + 1} = s^{'} ∣ S_{t} = s_{t}, A_{t} = a_{t})

假设 $R (s)$ 是reward function, $R (s)$ 表示每存活一定时间对总的reward的更新:

不同的reward function会导致不同的结果

Markov Search Tree

节点 $(s, a)$ 并不是真实的节点, 而是虚拟的节点, 类似expectation-max的节点

Utilities of Sequences

如何考虑未来的reward的影响? 应该放弃眼前的收益考虑更长远的收益还是更期待长期的收益?

Utility Function: 是基于整个Sequence的值的函数, 并不完全等于Reward Function. 如果只关注了最近的一个值的update, 那么就是Reward

Discounting: 如果未来的reward比较低, 对当前的影响不大, 那么设置一个discounting factor: $γ$ , 每一个时间步的reward的影响(reward的值)乘上 $γ$ 作为未来的权重. 如果更看重当前, 那么设置 $0 < γ < 1$ , 如果更看中未来, 可以让 $γ > 1$ .

$0 < γ < 1$ 有助于防止无限循环, 有助于算法收敛

防止无限循环的方法:

设置discounting factor<1 $U ([r_{0}, \dots, r_{\infty}]) = t = 0 \sum \infty γ^{t} r_{t} \leq \frac{R _{max}}{1 - γ} (Sum of Geometric Sequence)$

设置最多轮数, 设置最大搜索深度

设置aborting state. 如果一个状态进去就出不来, 就设置这个状态为停止状态, 表示这个状态没必要再搜索

Optimal Quantities

optimal value function:

V^{*} (s) = a max Q^{*} (s, a)

Q^{*} (s, a) = s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ V^{*} (s^{'})]

\Rightarrow V^{*} (s) = a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ V^{*} (s^{'})]

其中, $T (s, a, s^{'})$ 是状态转移的概率, $R (s, a, s^{'})$ 是状态转移的reward, $γ$ 是discounting factor.

前面两个式子可以写成一个总式(最后一行), 叫做Bellman Equation

Value Iteration

从 $V_{0} (s) = 0$ 开始, 迭代计算

V_{k + 1} \leftarrow a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ V_{k} (s^{'})]

复杂度: $O (s^{2} a)$

Q-value

相同的, Q-value也可以使用Value Iteration计算

Q_{k + 1} (s, a) \leftarrow s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ a^{'} max Q_{k} (s^{'}, a^{'})]

proof

Bellman equation $U_{t + 1} \leftarrow B U_{t}$

max norm $∣∣ U ∣∣ = max_{s} ∣ U (s) ∣$

the bellman update is a contraction by a factor of $γ$ on the space of utility vectors

$∣∣ B U_{t} - B U_{t}^{'} ∣∣ \leq γ ∣∣ U_{t} - U_{t}^{'} ∣∣$

there exists only one optimal value of contraction transformation

$B [V^{*}] = V^{*}$

Value iteration $V_{k + 1} = T [V_{k}]$ converges to $V^{*}$

example

Example

Value Iteration:

Example

Value Iteration:

$\dots$

Computing action from values

π^{*} (s) = ar g max_{a} s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ V^{*} (s^{'})]

称作policy extraction

或者如果已知optimal q-function, 可以写成:

π^{*} (s) = ar g max_{a} Q^{*} (s, a)

相较于从value得出, action从q-value得出更容易(计算量更少)

Policy Iteration

Problem with Value Iteration:

V_{k + 1} (s) \leftarrow a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) - γ V_{k} (s^{'})]

太慢, 每一次迭代的时间复杂度为 $O (s^{2} a)$
- 对自己的所有值域遍历(每个值对应的value都更新, 复杂度 $O (s)$ ),
- 取每个action中的最大值( $O (a)$ )
- 每个action的值由action对应状态 $s^{'}$ 的转移概率和对应的Reward乘积决定( $O (s)$ )
在max这一步的value基本没有改变

因此提出: 只关注 $ar g max π^{*}$ 即可, 而不是关注每一个值

计算当前Policy的结果

计算一个固定的(不一定optimal, 可能是随机)Utility Function
优化Policy

更新policy使用one-step look-ahead, 可能不是最优, 但是收敛速度更快

Step1
$V_{k + 1}^{π} = s^{'} \sum T (s, π (s), s^{'}) [R (s, π (s), s^{'}) + γ V_{k}^{π} (s^{'})]$
不再提供action, 而是给定一个policy函数 $π$ , 根据这个函数计算对应的值.

复杂度: $O (s^{2})$

或者假定已经达到了收敛状态, 那么只需要解出一个线性方程即可
$V^{π} = s^{'} \sum T (s, π (s), s^{'}) [R (s, π (s), s^{'}) + γ V^{π} (s^{'})]$
Step2

更新Policy:
$π_{i + 1} (s) = ar g max_{a} s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ V^{π_{i}} (s^{'})]$

Value Iteration v.s. Policy Iteration

都是计算相同的内容: 计算一个最优的action

都是动态规划

Value Iteration:

每一次更新都会计算所有的policy的value
会track所有的policy的值

Policy Iteration:

只更新一部分固定的policy. 每一个iteration都只关注一个policy而不是全部的policy
每一次计算之后都会更新policy function
可能收敛更快

Knowledge Base

Explorer

08-MDP

Markov Decision Process

Markov Search Tree

Utilities of Sequences

Optimal Quantities

Value Iteration

Q-value

proof

example

Computing action from values

Policy Iteration

Value Iteration v.s. Policy Iteration

Graph View

Table of Contents

Backlinks