Bayes

贝叶斯估计与惩罚

P r (A, B) = P r (A ∣ B) P r (B) = P r (B ∣ A) P r (A)

P r (B ∣ A) = \frac{P r ( A ∣ B ) P r ( B )}{P r ( A )}

有惩罚的损失函数：

PRSS (f; λ) = RSS (f) + λ J (f)

$λ$ 是超参数，自己定义。 $λ$ 越大，惩罚越大，原来的约束条件越小，模型越简单；反之，原来训练集的约束条件越大，模型越复杂。

$J (f)$ 是对模型复杂度的描述。这个是为了防止在参数很少的时候训练导致过拟合（就是这个模型只适用于这一些少量的参数，对于大量的其他没有训练的参数反而不适用）

如：对于cubic smoothing spline（这个就是 $J (x) = \int [f^{''} (x)]^{2} d x$ ）的最小二乘法：

PRSS (f; λ) = i = 1 \sum N (y_{i} - f (x_{i}))^{2} + λ \int [f^{''} (x)]^{2} d x

后面的 $λ J (x)$ 也可以称作正则化项，对抗过拟合

对实验结果的修正

对于一些实验次数非常少的实验，结果可能偏差较大，导致得出的结论过拟合或者不准确。那么可以根据先验概率（经验）进行修正。实验次数越少修正越大

如：掷硬币：

先验(prior)： $P (X = 1) = 0.5$

第一种算法： $P (X = 1) = \frac{1}{n} \frac{1}{2} + (1 - \frac{1}{n}) \frac{α _{1}}{α _{1} + α _{0}}$
第二种算法: $P (X = 1) = \frac{α _{1} + β _{1}}{α _{1} + β _{1} + α _{0} + β _{0}}$ $\hat{θ}^{MLE} = \frac{α _{1}}{α _{1} + α _{0}}$

$α_{1}$ 是投出 $X = 1$ 的次数， $α_{0}$ 是投出 $X = 0$ 的次数。而 $β$ 是修正值。

分类器

P r (W = w ∣ G = g, H = h) = \frac{P r ( W = w , G = g , H = h )}{\sum _{w} P r ( G = g , H = h , W = w )}

通过求和把 $W$ 项消除掉

参数的个数

假设输入 $X = ⟨ X_{1}, X_{2}, \dots, x_{n} ⟩$ ，那么所有的 $X$ 的可能性有 $2^{n}$ 种。

假设有 $n = 30$ ，那么一共有 $2^{30} \approx 1 0^{9}$ 数据量过大

Naive Bayes 朴素贝叶斯

进行假设：所有的特征都是相互独立的。（这个假设太强，实际中并不可能出现这种情况。但是可以用来简单模拟）

那么有 $P r (X_{1}, X_{2} ∣ Y) = P r (X_{1} ∣ Y) P r (X_{2} ∣ Y)$ 。这时如果有 $n$ 个参数，那么只需要计算 $2 n$ 次（分别是 $Y = 1$ 和 $Y = 0$ 两种情况，其他的每一个变量只需要计算一次即可，不需要考虑相关性）

训练Naive Bayes

对于所有的标签 $y_{k}$ ，分析计算 $π_{k} \equiv P (Y = y_{k})$ 。

对于多输入的 $X_{i}$ 向量：对每一个 $x_{ij} \in X_{i}$ ，计算 $θ_{ijk} = P (X_{i} = x_{ij} ∣ Y = y_{k})$

然后对 $X^{new}$ 进行分类：$ $Y^{new} = ar g max_{y_{k}} P (Y = y_{k}) \prod_{i} P (X_{i}^{new} ∣ Y = y_{k}) = ar g max_{y_{k}} π_{k} \prod_{i} θ_{ijk}$ $ 目标函数：

l (θ, π) = ln P r (D, θ, π) = ln ((x_{0}, y_{0}), \dots, (x_{n}, y_{n}))

= i = 1 \sum n ln P r (x_{i}, y_{i} ∣ θ, π) = i = 1 \sum n ln P r (x_{i} ∣ y_{i}, θ) P r (y_{i} ∣ π)

= i = 1 \sum n ln P r (x_{i} ∣ y_{i}, θ) + i = 1 \sum n ln P r (y_{i} ∣ π)

D = {x_{i}, y_{i}}_{i = 1}^{m}

\frac{\partial l ( θ , π )}{\partial θ} = \frac{\partial \sum _{i = 1}^{n} ln P r ( x _{i} ∣ y _{i} , θ )}{\partial l} = 0

\frac{\partial l ( θ , π )}{\partial π} = \frac{\partial \sum _{i = 1}^{n} ln P r ( y _{i} ∣ π )}{\partial π} = 0

如果假设不成立，强行使用也可以。但是如果有两个特征强相关，极端一点假设 $X_{i} = X_{j}$ ，那么会过度关注于 $X_{i}$ ，因为这一项可以看成是平方了。

还有就是样本不够的时候会出现某一些 $P r (X_{i} ∣ Y) = 0$ 的情况，导致整个模型不可用

所以要引入先验的修正，从MLE变成MAP

MLE计算：

\overset{μ}{^}_{ik} = \frac{1}{\sum _{j} δ ( Y ^{j} = y _{k} )} j \sum X_{i}^{j} δ (Y^{j} = y_{k})

第 $i$ 个特征，对应第 $k$ 个类别，第 $j$ 个训练样本

\overset{σ}{^}^{2} = \frac{1}{\sum _{j} δ ( Y ^{j} = y _{k} )} j \sum (X_{i}^{j} - \overset{μ}{^}_{ik})^{2} δ (Y^{j} = y_{k})

Bayesian Net 贝叶斯网络

概率模型图

是一种有向无环图（DAG）

graph TB
Z-->Y
X-->Y

表示 $Y$ 受到 $X$ 影响， $Y$ 也受到 $Z$ 影响，但是 $Z$ 和 $X$ 相互独立，不相关

那么就可以化简成 $P (A, B ∣ Y) = P (A ∣ Y) P (B ∣ Y)$

然后就可以计算（CPD）联合概率密度分布:

	Y=1	Y=0
X=1,Z=1	$θ_{1, 1}$	$1 - θ_{1, 1}$
X=1,Z=0	$θ_{1, 0}$	$1 - θ_{1, 0}$
X=0,Z=1	$θ_{0, 1}$	$1 - θ_{0, 1}$
X=0,Z=0	$θ_{0, 0}$	$1 - θ_{0, 0}$

然后对上表的 $θ$ 进行估计

如：

graph TB
StormClouds-->Lighting-->Thunder
StormClouds-->Rain-->WindSurf
Lighting-->WindSurf

上述图表中，可以简单认为给定 $X_{i}$ 的所有直接父节点情况下， $X_{i}$ 和所有非子代节点的节点都独立。

(假设上面的单词使用首字母进行表示)

即，可以认为， $T ⊥ ⊥ W S, R, SC ∣ L$ ，以及 $W S ⊥ ⊥ T, SC ∣ {L, R}$ ，等

D-separate

graph TB
X-->Y-->Z
M-->N
M-->P
A-->B
C-->B

这个时候，有三种情况：

第一种原来是条件不独立，给定 $Y$ 之后变成条件独立
第二种原来条件不独立，给定 $M$ 后条件独立
第三种原来条件独立，给定 $B$ 之后条件不独立

可以认为，两者之间如果有一条通路，那么就算是条件独立。但是注意第三种，给定 $B$ 之后不是将通路打断，而是把断掉的通路合成

Markov Blanket

马尔科夫毯

$X_{M B_{i}}$ ：一个点 $X_{i}$ 的所有的直接父节点，子节点，联合父节点（直接子节点的直接父节点）组成的一部分

那么给定 $X_{M B_{i}}$ 之后， $X_{i}$ 和 $X_{\overset{ˉ}{M B_{i}}}$ 条件独立 $\Rightarrow X_{i} ⊥ ⊥ X_{\overset{ˉ}{M B_{i}}} ∣ X_{M B_{i}}$

CDP 联合概率分布

计算完所有的CDP之后就可以通过这个表进行计算所有需要的条件概率。

如：

	T=1	T=0
L=1	$θ_{1}$	$1 - θ_{1}$
L=0	$θ_{0}$	$1 - θ_{0}$

计算

P (T ∣ L) = θ_{1}^{T L} (1 - θ_{1})^{(1 - T) L} θ_{0}^{T (1 - L)} (1 - θ_{0})^{(1 - T) (1 - L)}

θ_{0}, θ_{1} = ar g θ_{0}, θ_{1} max l (θ_{0}, θ_{1}) = i = 1 \sum n ln P (T = t_{i} ∣ L = l_{i})

然后

P (S, L, R, T, W) = P (S) P (L ∣ S) P (R ∣ S) P (T ∣ L) P (W ∣ L, R)

P (S = 1, L = 0, R = 1, T = 0, W = 1)

= P (S = 1) P (L = 0∣ S = 1) P (R = 1∣ S = 1) P (T = 0∣ L = 0) P (W = 1∣ L = 0, R = 1)

P (S = 1∣ L = 0, T = 1) = \frac{P ( S = 1 , L = 0 , T = 1 )}{P ( T = 1 , L = 0 )}

= \frac{\sum _{w, r} P ( S = 1 , T = 1 , L = 0 , W = w , R = r )}{\sum _{w, r, s} P ( S = s , T = 1 , L = 0 , W = w , R = r )}

P (S = 1) = t, l, w, r \sum P (S = 1, T = t, L = l, R = r, W = w)

注意，给定的观测值越少，计算量就越多。

所以要转换成采样或者变分来做。

采样
$E_{P r (X ∣ Y)} [F (x)] = \int P r (X ∣ Y) F (X) d X = \frac{1}{K} k = 1 \sum K F (X_{k}), x_{k} \sim P r (X ∣ Y)$
使用Monte Carlo方法进行采样。但是有个问题，需要样本量极大
变分

使用Gaussian Distribution进行逼近
$ϕ min K L (q_{ϕ} (x) ∣∣ P r (X ∣ Y))$
其中 $q_{ϕ}$ 是使用高斯分布逼近的结果。

所以将这个问题变成了优化问题

对于连续随机变量

离散化： $X = 1, 2, 3, \dots$ ，其中 $X = i$ 意味着 $X \in [i - 1, i)$
对参数建模

使用Sigmoid函数进行分析： $σ (x) = \frac{1}{1 + e ^{x}}$

$\Rightarrow P (X = x ∣ Y = y) = \frac{1}{1 + e ^{- β_{1} y + β_{0}}}$ ，然后求解 $β_{1}, β_{0}$

隐变量

假设存在隐变量 $Z$ （虽然存在于模型中，但是没有任何观测数据），使用MLE：

ℓ (θ) = θ max E [ln P_{θ} (x)] = θ max E [ln \int p (x, z) d x]

估计下界：

ln P_{θ} (x) = ln \int p_{θ} (x, z) d x = ln \int q (z) \frac{p _{θ} ( x , z )}{q ( z )} d x

= ln E_{q (z)} [\frac{p _{θ} ( x , z )}{q ( z )}] \geq E_{q (z)} [ln p_{θ} (x, z) - ln q (z)] （吉森不等式）

取最小值时，等式成立，即

θ min ln P_{θ} (x) = E_{p_{θ} (z ∣ x)} [ln \frac{P _{θ^{'}} ( x , z )}{\sum _{z} P _{θ} ( x , z )}]

使用Expectation Maximization（MLE）进行估计

对隐变量 $Z$ 存在的模型进行估计：

θ \leftarrow ar g θ max lo g P (X, Z ∣ θ) \leftarrow ar g θ max E_{Z ∣ X, θ} [lo g P (X, Z ∣ θ)]

是迭代求解，可以在线计算，时间复杂度不高对于 $P (X, Z ∣ θ)$ ，正常使用全概率公式链式法则加上贝叶斯网格的先验进行优化计算即可

EM算法

EM算法，Exception Maximization Algorithm。

E-step：根据 $θ$ 计算隐变量的分布

M-step：根据计算所得隐变量的分布计算更新 $θ$

例子：

graph TB
Flu-->Sinus-->Headache
Allergy-->Sinus-->Nose

假设可观测值： $X = {F, A, H, N}$ ，隐变量 $Z = {S}$

P (S_{k} = 1∣ f_{k} a_{k} h_{k} n_{k}, θ) = \frac{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ )}{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ ) + P ( S _{k} = 0 , f _{k} z _{k} h _{k} u _{k} ∣ θ )}

E-step: Calculate $P (Z_{k} ∣ X_{k}; θ)$ for each training example, $k$

P (S_{k} = 1∣ f_{k} z_{k} h_{k} u_{k}, θ) = E [s_{k}] = \frac{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ )}{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ ) + P ( S _{k} = 0 , f _{k} z _{k} h _{k} u _{k} ∣ θ )} (= P (Z ∣ X, θ))

M-step: update all relevant parameters. For example:

θ_{s ∣ i, j} \leftarrow \frac{\sum _{k = 1}^{K} δ ( f _{k} = i , a _{k} = j ) E [ s _{k} ]}{\sum _{k = 1}^{K} δ ( f _{k} = i , a _{k} = j )}

example
graph TB
Y-->X1
Y-->X2
Y-->X3
Y-->X4
Y X1 X2 X3 X4
1 0 0 1 1
0 0 1 0 0
0 0 0 1 0
? 0 1 1 0
? 0 1 0 1

EM算法的实现过程：

E-step:
$E_{P (Y ∣ X_{1} \dots X_{N})} [y (k)] = P (y (k) = 1∣ x_{1} (k), \dots, x_{N} (k); θ) = \frac{P ( y ( k ) = 1 ) \prod _{i} P ( x _{i} ( k ) ∣ y ( k ) = 1 )}{\sum _{j = 0}^{1} P ( y ( k ) = j ) \prod _{i} P ( x _{i} ( k ) ∣ y ( k ) = j )}$
M-step:

Y	X2	X3	X4
1	0	1	1
0	1	0	0
0	0	1	0
?	1	1	0
?	1	0	1

theta_{ij|m}=\hat P(X_i=j|Y=m)=\frac{\sum_kP(y(k)=m|x_1(k),\cdots,x_N(k))\delta(x_i(k)=j)}{\sum_kP(y(k)=m|x_1(k),\cdots,x_N(k))}$$

Knowledge Base

Explorer

Bayes

Bayes

贝叶斯估计与惩罚

对实验结果的修正

分类器

参数的个数

Naive Bayes 朴素贝叶斯

训练Naive Bayes

Bayesian Net 贝叶斯网络

概率模型图

D-separate

Markov Blanket

CDP 联合概率分布

对于连续随机变量

隐变量

EM算法

Graph View

Table of Contents

Backlinks