Background

频率派: 统计机器学习, 核心思想是定义一个Loss Function, 然后进行优化

一般思路:

定义model: e.g. $y = w^{T} x + b$ 超平面

定义strategy: 定义优化的策略, 即定义一个Loss Function. 不同的Loss Function会偏向优化不同的方面

算法求解: e.g. 梯度下降,随机梯度下降,牛顿法,逆牛顿法,…

贝叶斯派: 概率图模型, 核心思想是做推断, 求后验概率, 求后验概率相关的计算(方差, 期望, etc…), 采用数值积分的方式(Monta Carlo的方法有了实质的突破)

那么HMM从根本上是属于概率图模型

概率图模型

有向图: 贝叶斯网络
无向图: 马尔可夫随机场
- 概率图+时间: 动态模型 Dynamic Model
  
  一般而言的模型, 如高斯混合模型(GMM), N个样本: ${x_{1}, x_{2}, \dots, x_{N}}$ 这些样本之间是独立同分布的.
  
  但是Dynamic Model是在普通模型的基础上添加了时间序列. 这个时间可以认为是真实的时间, 也可以是一个抽象的时间, 也可以是一个序列(一段话, 一个句子(nlp))
  
  这个时候 $x_{i}$ 之间就不是独立同分布(i.i.d)的了
  
  e.g.
```
graph LR
i1-->i2
i1-->o1
i2-->i3
i2-->o2
i3-->...
```
  其中, $A_{i}$ 是系统状态system state, 是隐变量, 而 $o_{i}$ 是观测变量.
  
  可以认为横向是时间, 或者说是序列; 纵向是混合mixture
  
  如果时间序列上(横向)的system state是离散的, 每一个隐变量的取值是离散的: HMM; 如果是连续, 那么判断是否是线性的. 其中一个线性的代表是Kalman Filter, 非线性的代表是Partide Filter

Hidden Markov Model

HMM

参数

假设观测变量用 $o$ 表示, 系统状态变量用i表示

然后假设取值集合(值域): o的值域 $V = {v_{1}, v_{2}, \dots, v_{M}}$ , i的取值集合(值域): $Q = {q_{1}, q_{2}, \dots, q_{N}}$

λ = (π, A, B)

π : 初始的概率分布

π = [π_{1}, π_{2}, ..., π_{N}] 表示系统变量取值的概率 . 默认所有变量的初始的分布是相同的

A = [a_{ij}] : 状态转移矩阵

其中, $a_{ij} = p (i_{t + 1} = q_{j} ∣ i_{t} = q_{i})$ . 注意这里的下标 $_{i}$ 表示状态取值的第 $i$ 个值,而 $i_{t}$ 指系统变量 $i$ 在 $t$ 时刻的取值

B = [b_{j} (k)] : 发射矩阵

其中, b_{j} (k) = p (o_{t} = v_{k} ∣ i_{t} = q_{j})

这里的 $π_{i}$ 是指的是在初始状态下为第 $i$ 个状态的概率, 并不是第 $i$ 个system state的概率. 默认初始状态下所有system state的分布相同

假设

齐次马尔可夫假设

可以简单认为是无后效性的. 也就是说, 认为未来和过去没有关系

$p (i_{t + 1} ∣ i_{t}, i_{t - 1}, \dots, i_{1}, o_{t}, o_{t - 1}, \dots, o_{1}) = p (i_{t + 1} ∣ i_{t})$

即, $i_{t + 1}$ 只和 $i_{t}$ 相关, 其他的都无关
观测独立假设

$p (o_{t} ∣ i_{t}, i_{t - 1}, \dots, i_{1}, o_{t - 1}, \dots, o_{1}) = p (o_{t} ∣ i_{t})$

即, $o_{t}$ 只和 $i_{t}$ 有关

三个主要问题

Evaluation

根据初始化的参数 $λ = (π, A, B)$ 求 $P (O ∣ λ)$

常用Forward Backward Algorithm
Learning

求参数 $λ$

使用EM算法

$λ = ar g max p (O ∣ λ)$
Decoding

根据O求解I. 常见两种求解:
1. 预测, 求解 $p (i_{t + 1} ∣ o_{1}, o_{2}, \dots,, o_{t})$
2. 滤波, 求解 $p (i_{t} ∣ o_{1}, o_{2}, \dots, o_{t})$
$I = ar g max p (I ∣ O)$

Evaluation

Given $λ$ , find $p (O ∣ λ)$

p (O ∣ λ) = I \sum p (I, O ∣ λ) = I \sum p (O ∣ I, λ) p (I ∣ λ)

其中

p (I ∣ λ) = p (i_{1}, i_{2}, \dots, i_{T} ∣ λ) = p (i_{T} ∣ i_{1}, i_{2}, \dots, i_{T - 1}, λ) p (i_{1}, \dots, i_{T - i} ∣ λ)

= p (i_{T} ∣ i_{1}, i_{2}, \dots, i_{T - 1}, λ) \dots p (i_{2} ∣ i_{1}, λ) p (i_{1} ∣ λ)

consider the assumption: p (i_{t + 1} ∣ i_{t}, i_{t - 1}, \dots, i_{1}, o_{t}, o_{t - 1}, \dots, o_{1}) = p (i_{t + 1} ∣ i_{t})

\Rightarrow p (I ∣ λ) = p (i_{T} ∣ i_{T - 1}) \dots p (i_{2} ∣ i_{1}) = a_{i_{T - 1} i_{T}} a_{i_{T - 2} i_{T - 1}} \dots a_{i_{1} i_{2}} π (i_{1}) = π (i_{1}) t = 2 \prod T a_{i_{t - 1} i_{t}}

p (O ∣ I, λ) = < 使用观测独立假设, 类似的过程 > = t = 1 \prod T b_{i_{t}} (o_{t})

因此

p (O ∣ λ) = I \sum π (i_{1}) t = 2 \prod T a_{i_{t - 1} i_{t}} t = 1 \prod T b_{i_{t}} (o_{t})

= i_{1} \sum i_{2} \sum \dots i_{N} \sum π (i_{1}) t = 2 \prod T a_{i_{t - 1} i_{t}} t = 1 \prod T b_{i_{t}} (o_{t})

注意到时间复杂度为 $O (N^{T})$ 是一个指数时间增长的, 时间复杂度非常恐怖. 所以使用另外的方法计算

前向算法

现在假设一个记号 $α_{t} (i) = p (o_{1}, o_{2}, \dots, o_{t}, i_{t} = q_{i} ∣ λ)$ (注意分别作为参数的i是 $q_{i}$ 的下标,而 $i_{t}$ 是表示第 $t$ 个system state)

这个记号表示第 $t$ 个system state为 $q_{i}$ , 并且观测到的结果为 $o_{1}, \dots, o_{t}$ 的概率.

那么有:

P (O ∣ λ) = i = 1 \sum N p (o_{1}, \dots, o_{T}, i_{T} = q_{i} ∣ λ) = i = 1 \sum N α_{T} (i)

尝试通过累加的方式消除掉引入的 $i_{T}$

现在通过计算 $α_{T} (i)$ 能化简计算:

α_{t + 1} (j) = p (o_{1}, \dots, o_{t + 1}, i_{t + 1} = q_{j} ∣ λ)

= i = 1 \sum N p (o_{1}, \dots, o_{t + 1}, i_{t + 1} = q_{j}, i_{t} = q_{i} ∣ λ)

= i = 1 \sum N p (o_{t + 1} ∣ o_{1}, \dots, o_{t}, i_{t + 1} = q_{j}, i_{t} = q_{i}, λ) p (o_{1}, \dots, o_{t}, i_{t + 1} = q_{j}, i_{t} = q_{i} ∣ λ)

= i = 1 \sum N p (o_{t + 1} ∣ i_{t + 1} = q_{j}) p (o_{1}, \dots, o_{t}, i_{t + 1} = q_{j}, i_{t} = q_{i} ∣ λ) 使用观测独立假设

= i = 1 \sum N p (o_{t + 1} ∣ i_{t + 1} = q_{j}) p (i_{t + 1} = q_{j} ∣ o_{1}, \dots, o_{t}, i_{t} = q_{i}, λ) p (o_{1}, \dots, o_{t}, i_{t} = q_{i} ∣ λ)

= i = 1 \sum N p (o_{t + 1} ∣ i_{t + 1} = q_{j}) p (i_{t + 1} = q_{j} ∣ i_{t} = q_{i}) α_{t} (i) 使用齐次马尔可夫假设

= i = 1 \sum N b_{j} (o_{t + 1}) a_{ij} α_{t} (i)

后向传播

假定一个记号 $β_{y} (i) = p (o_{t + 1}, \dots, o_{T} ∣ i_{t} = q_{i}, λ)$ , 表示在给定第 $t$ 个时刻的system state $i_{t} = q_{i}$ 之后, 可观测变量为 $o_{t + 1}, \dots, o_{T}$ 的概率

注意, $i_{t}$ 和 $o_{t + 1}$ 是正好错开了一个时序

那么有 $β_{1} (i) = p (o_{2}, \dots, o_{T} ∣ i_{1} = q_{i}, λ)$

那么根据 $β_{t} (i)$ , 写出:

p (O ∣ λ) = p (o_{1}, \dots, o_{T} ∣ λ)

= i = 1 \sum N p (o_{1}, \dots, o_{T}, i_{1} = q_{i} ∣ λ)

= i = 1 \sum N p (o_{1}, \dots, o_{T} ∣ i_{1} = q_{i}, λ) p (i_{1} = q_{i} ∣ λ)

= i = 1 \sum N p (o_{1} ∣ o_{2}, \dots, o_{T}, i_{1} = q_{i}, λ) p (o_{2}, \dots, o_{T} ∣ i_{1} = q_{i}, λ) π_{i}

= i = 1 \sum N p (o_{1} ∣ i_{1} = q_{i}) β_{1} (i) π_{i}

= i = 1 \sum N b_{i} (o_{1}) π_{i} β_{1} (i)

现在推导 $β_{t} (i)$ 的地推表达式

引论: Markov Blanket and

D-separate
graph TB
X-->Y-->Z
M-->N
M-->P
A-->B
C-->B
这个时候，有三种情况：

第一种原来是条件不独立，给定 $Y$ 之后变成条件独立

第二种原来条件不独立，给定 $M$ 后条件独立

第三种原来条件独立，给定 $B$ 之后条件不独立

可以认为，两者之间如果有一条通路，那么就算是条件独立。但是注意第三种，给定 $B$ 之后不是将通路打断，而是把断掉的通路合成
Link to original

β_{t} (j) = p (o_{t + 1}, \dots, o_{T} ∣ i_{t} = q_{j}, λ) = i = 1 \sum N p (o_{t + 1}, \dots, o_{T}, q_{t + 1} = q_{i} ∣ i_{t} = q_{j}, λ) = i = 1 \sum N p (o_{t + 1}, \dots, o_{T} ∣ i_{t + 1} = q_{i}, i_{t} = q_{j}, λ) p (i_{t + 1} = q_{i} ∣ i_{t} = q_{j}, λ) = i = 1 \sum N p (o_{t + 1}, \dots, o_{T} ∣ i_{t + 1} = q_{i}, λ) a_{ji} 考虑 D-seperated 第一种情况, i_{t} 在给定 i_{t + 1} 时条件独立 = i = 1 \sum N p (o_{t + 1} ∣ o_{t + 2}, \dots, o_{T}, i_{t + 1} = q_{i}, λ) p (o_{t + 2}, \dots, o_{T} ∣ i_{t + 1} = q_{i}, λ) a_{ji} = i = 1 \sum N p (o_{t + 1} ∣ i_{t + 1} = q_{i}) β_{t + 1} (i) a_{ji} 使用观测独立假设 = i = 1 \sum N b_{i} (o_{t + 1}) a_{ji} β_{t + 1} (i)

Learning

$λ = ar g max_{λ} p (O ∣ λ)$

Baum-Welch算法是在EM算法之前提出的, 但是实际上Baum-Welch算法就是EM算法的一种特殊形式

考虑EM算法公式:

θ^{(t + 1)} = ar g max \int_{z} lo g p (X, Z ∣ θ) p (Z ∣ X, θ^{(t)}) d Z

在这里, 隐变量 $Z = I$ , $X = O$ , $θ = λ$ , 那么就有了针对HMM的EM算法的公式:

λ^{(t + 1)} = ar g max_{λ} I \sum lo g p (O, I ∣ λ) p (I ∣ O, λ^{(t)})

= ar g max_{λ} I \sum lo g p (O, I ∣ λ) \frac{p ( O , I ∣ λ ^{(t)} )}{p ( O ∣ λ ^{(t)} )}

= ar g max_{λ} I \sum lo g p (O, I ∣ λ) p (O, I ∣ λ^{(t)})

注意, $λ^{(t)} = (π^{(t)}, A^{(t)}, B^{(t)})$ 是上一次迭代产生的结果, 那么 $p (O ∣ λ^{(t)})$ 是一个常数, 对求解 $ar g max_{λ}$ 没有关系, 因此可以舍弃.

我们再定义中间的函数 $Q (λ, λ^{(t)}) = \sum_{I} lo g p (O, I ∣ λ) p (O, I ∣ λ^{(t)})$

将原始的Evalution带入表达式:

Q (λ, λ^{(t)}) π^{(t + 1)} = I \sum lo g (π (i_{1}) t = 2 \prod T a_{i_{t - 1} i_{t}} t = 1 \prod T b_{i_{t}} (o_{t})) p (O, I ∣ λ^{(t)}) = I \sum [(lo g π_{i_{1}} + lo g t = 1 \sum T a_{i_{t - 1} i_{t}} + lo g t = 1 \sum T b_{i_{1}} (o_{t})) p (O, I ∣ λ^{(t)})] = ar g max_{π} Q (λ, λ^{(t)})) = i_{1} \sum \dots i_{T} \sum (lo g π_{i_{1}} p (O, i_{1}, \dots, i_{T} ∣ λ^{(t)}))) = ar g max_{π} i_{1} \sum (lo g π_{i_{1}} p (O, i_{1} ∣ λ^{(t)})) s.t. i \sum π_{i} = 1

应用拉格朗日乘子法:

L (π, η) \Rightarrow 代入 (1), 得 : \Rightarrow = i = 1 \sum N lo g π_{i} p (O, i_{1} = q_{i} ∣ λ^{(t)}) + η (i = 1 \sum N π_{i} - 1) \frac{\partial L}{\partial π _{i}} = \frac{1}{π _{i}} p (O, i_{1} = q_{i} ∣ λ^{(t)}) + η = 0 (1) i = 1 \sum N [p (O, i_{1} = q_{i} ∣ λ^{(t)}) + π_{i} η] = 0 \Leftrightarrow p (O ∣ λ^{(t)}) + η = 0 \Leftrightarrow η = - p (O ∣ λ^{(t)}) p (O, i_{1} = q_{i} ∣ λ^{(t)}) + η π_{i} = p (O, i_{1} = q_{i} ∣ λ^{(t)}) - π_{i} p (O ∣ λ^{(t)}) = 0 π_{i}^{(t + 1)} = \frac{p ( O , i _{1} = q _{i} ∣ λ ^{(t)} )}{p ( O ∣ λ ^{(t)} )}

关于 $A^{(t + 1)}$ 和 $B^{(t + 1)}$ 的推导过程是类似的, 这里不做推导.

Decoding

也称为Viterbi Algorithm

$\hat{I} = ar g max_{I} p (I ∣ O, λ)$

我们可以认为这里有一个动态规划的问题

假设路径的长度是 $\frac{1}{p}$ , 那么我们的目的就是找到最短路径. 这样就能最大化概率

定义

δ_{t} (i) = i_{1}, \dots, i_{t - 1} max p (o_{1}, \dots, o_{t}, i_{1}, \dots, i_{t - 1}, i_{t} = q_{i} ∣ λ)

意义是达到 $t$ 时刻的时候, 选择 $q_{i}$ 作为system state的概率的最大值

状态转移方程为:

δ_{t + 1} (j) = i_{1}, \dots, i_{t} max p (o_{1}, \dots, o_{t + 1}, i_{1}, \dots, i_{t}, i_{t + 1} = q_{j} ∣ λ) = 1 \leq i \leq N max δ_{t} (i) a_{ij} b_{j} (o_{t + 1})

记录中间经过的路径:

定义 ψ_{t + 1} (j) = ar g max_{1 \leq i \leq N} δ_{t} (i) a_{ij}

其他

假设隐变量是 $Z$ , 观测变量是 $X$

filtering

P (z_{t} ∣ x_{1}, \dots, x_{t})

是给定观测结果从 $x_{1}, \dots, x_{t}$ 之后找到对应的隐变量 $z_{t}$

这个可以做online learning在线学习

p (z_{1} ∣ x_{1}) \to p (z_{2} ∣ x_{1}, x_{2}) \to \dots \to p (z_{t} ∣ x_{1}, \dots, x_{t}) \to \dots

每进来一个数据就可以做一次filtering, 是可以做online的

p (z_{t} ∣ x_{1 : t}) = \frac{p ( z _{t} , x _{1 : t} )}{p ( x _{1 : t} )} = \frac{p ( z _{t} , x _{1 : t} )}{\sum _{z_{t}} p ( x _{1 : t} , z _{t} )} \propto p (z_{t}, x_{1 : t}) = α_{t} (z_{t})

smoothing

p (z_{t} ∣ x_{1}, \dots, x_{T})

给定所有的观测值, 然后求解某一个时刻的隐变量

更偏向offline, 类似于全部结束之后的整体复盘

称作前向后向算法

p (z_{t} ∣ x_{1 : T}) p (x_{1 : T}, z_{t}) \Rightarrow = \frac{p ( z _{t} , x _{1 : T} )}{p ( x _{1 : T} )} = \frac{p ( z _{t} , x _{1 : T} )}{\sum _{z_{t}} p ( x _{1 : T} , z _{t} )} = p (x_{1 : t}, x_{t + 1 : T}, z_{t}) = p (x_{t + 1 : T} ∣ x_{1 : t}, z_{t}) p (x_{1 : t}, z_{t}) = p (x_{t + 1 : T} ∣ z_{t}) α_{t} (z_{t}) = β_{t} (z_{t}) α_{t} (z_{t}) p (z_{t} ∣ x_{1 : T}) \propto p (z_{t}, x_{1 : T}) = β_{t} (z_{t}) α_{t} (z_{t})

中间的 $p (x_{t + 1 : T} ∣ x_{1 : t}, z_{t}) = p (x_{t + 1 : T} ∣ z_{t})$ 化简用到了D-separator

prediction

p (z_{t + 1}, \dots ∣ x_{1}, \dots, x_{t}) or p (x_{t + 1}, \dots ∣ x_{1}, \dots, x_{t})

在给定前 $t$ 时刻的观测值 $x_{1}, \dots, x_{t}$ 之后, 预测后面一个或者多个隐变量或者观测值的过程

马尔可夫齐次假设和filtering问题:

p (z_{t + 1} ∣ x_{1 : t}) = z_{t} \sum p (z_{t + 1}, z_{t} ∣ x_{1 : t}) = z_{t} \sum p (z_{t + 1} ∣ z_{t}, x_{1 : t}) p (z_{t} ∣ x_{1 : t}) = z_{t} \sum p (z_{t + 1} ∣ z_{t}) α_{t} (z_{t})

观测独立假设和上面刚刚求解的预测:

p (x_{t + 1} ∣ x_{1 : t}) = z_{t + 1} \sum p (x_{t + 1}, z_{t + 1} ∣ x_{1 : t}) = z_{t + 1} \sum p (x_{t + 1} ∣ z_{t + 1}, x_{1 : t}) p (z_{t + 1} ∣ x_{1 : t}) = z_{t + 1} \sum [p (x_{t + 1} ∣ z_{t + 1}) z_{t} \sum p (z_{t + 1} ∣ z_{t}) α_{t} (z_{t})]

Knowledge Base

Explorer

HMM