Background

条件随机场 CRF Conditional Random Field

graph TD
分类-->硬输出
分类-->软输出
subgraph hard
硬输出-->SVM
硬输出-->PLA
硬输出-->LDA
end
subgraph soft
软输出-->概率生成模型
软输出-->概率判别模型
end

硬输出是有一个明确的分类边界的, 而软输出是计算概率, 找到最大的后验概率

概率生成模型是对建模(e.g. HMM), 而概率判别模型是对建模(e.g. softmax, Logistic Regression等, 都是属于Maximum Entropy Model的一种)

Gaussian Mixture Model:

graph
Z-->X

Z是隐变量, X是观测变量. 现在假设服从离散分布, 即可以取值, 而

MEMM

现在综合HMM和Maximum Entropy Model, 组合得出一个新的模型MEMM(Maximum Entropy Markov Model), 属于判别模型

其中, 与HMM相比, 隐变量不再影响观测变量, 而是观测变量作为输入影响隐变量()

graph LR;
x4((x4))-->z4
x2((x2))-->z2
x1((x1))-->z1
x3((x3))-->z3
z1-->z2
z2-->z3
z3-->z4
x1:4(x1:4)-->z1
x1:4(x1:4)-->z2
x1:4(x1:4)-->z3
x1:4(x1:4)-->z4

其中, 指的是全局的global观测变量的约束, 是单独的local的观测变量. 隐变量受到local的观测变量的影响, 并同时受到global观测变量的影响.

这样相比HMM, 打破了观测独立假设, 让模型整体更加的合理.

但是MEMM会陷入一个问题: 标注偏差问题(label bias problem), 原因是局部归一化

CRF

为了解决MEMM的label bias problem, CRF在MEMM的概率图的基础上, 将有向图转换成了无向图:

graph LR
x4((x4))---z4
x2((x2))---z2
x1((x1))---z1
x3((x3))---z3
z1---z2
z2---z3
z3---z4
x1:4(x1:4)---z1
x1:4(x1:4)---z2
x1:4(x1:4)---z3
x1:4(x1:4)---z4

这个也是一个判别模型, 也是对进行建模. 由于这个模型是无向图建模, 所以天然就是全局归一化, 不存在局部归一化

HMM vs MEMM

HMM

齐次一阶马尔科夫假设

  • 一阶: 这一个时刻的状态只会受到上一个时刻的状态的影响
  • 齐次: 所有的状态在受到上一个状态的影响下的分布是相同的.

观测独立假设

  • 观测值只和对应时刻的隐变量有关

建模对象:

MEMM

打破观测独立假设