Fit

简单拟合

最小二乘法: Least Square

计算

Input: $X^{T} = (X_{1}, X_{2}, \dots, X_{p})$ ,
predict output via the model: $\hat{Y} = \hat{β_{0}} + \sum_{j = 1}^{p} X_{j} \hat{β}_{j}$

$\hat{β}_{j}$ : bias or intercept, 偏差

而 $\hat{β_{j}}$ 和 $\hat{β_{0}}$ 都是需要求解的参数,
Include the constant variable 1 in X: 在向量X中包含常数1: $\hat{Y} = X^{T} \hat{β}$

可令 $X_{0} = [1]$ , 则 $X^{T} = (X_{0}, X_{1}, \dots, X_{p})$ , 那么 $\hat{β} = \hat{β}_{0} \hat{β}_{1} ⋮ \hat{β}_{p}$ . 相当于是把最开头的那个 $\hat{β}_{0}$ 收到了参数向量 $\hat{β}$ 里面
这里的 $\hat{Y}$ 可以是标量, 可以是向量. 如果 $\hat{Y}$ 是k维向量, 那么就有 $\hat{β}$ 是一个 $p \times K$ 的参数矩阵(多元回归)
在(p+1)维的输入输出空间中, $(X, \hat{Y})$ 代表一个超空间. 如果 $\hat{β}_{o}$ 在 $\hat{β}$ 中, 那么这个超空间就经过原点.

ground-truth: $f (X) = X^{T} β$ , it’s gradient(梯度): $f^{'} (X) = β$ 是一个指向最陡的上升方向的向量.

Tip

补充: 矩阵导数:
$\frac{\partial f _{θ} ( X )}{\partial β} = X_{1} X_{2} ⋮ X_{p} = X$ $\frac{\partial β ^{T} A β}{\partial β} = (A + A^{T}) β$ $\frac{\partial β ^{T} X ^{T} X β}{\partial β} = (X^{T} X + X X^{T}) β$
其中, $X$ 是一个向量, $A$ 是一个二次型系数矩阵.

残差

N: # observations 观测量(样本空间)
minimize the residual sum of squares: $R S S (β) = i = 1 \sum N (y_{i} - x_{i}^{T})^{2}$ 向量(矩阵): $R S S (β) = (y - X β)^{T} (y - X β) = ∣∣ y - X β ∣ ∣_{2}^{2}$ $∣∣ y - B β ∣∣$ 是范数, 关于 $β$ 的函数, 是一个抛物面.

$∣∣ a ∣ ∣_{2} = a^{T} a, \forall a \in R^{p \times 1}$ $

范数: $

要找到最小值点, 需要求导数:

R S S (β) = (y - X β)^{T} (y - X β) = y^{T} y - X^{T} β^{T} y - y^{T} X β + β^{T} X^{T} X β

R S S^{'} (β) = X^{T} (y - X β)

如果 $X$ 不是奇异矩阵, 那么 $\hat{β} = (X^{T} X)^{- 1} X^{T} y$

最近邻项: Nearest Neighbor

分类.

model: $\hat{Y} (x) = \frac{1}{k} \sum_{x_{o} \in N_{k} (x)} y_{i}$
$N_{k} (x)$ : 最近的 $k$ 个元素的集合.
$y$ : 类别.
分类依据: 计算 $\hat{Y} (x)$ , 与0.5(二元)去对比

回归方程： $\hat{f} (x) = Ave (y_{i} ∣ x_{i} \in N_{k} (x))$

$N_{k}$ 表示前k个最近的元素。

需要极大样本量，才能够保证有均值与期望相接近。当 $k \to \infty$ 的时候，才会有 $\frac{k}{N} \to 0 \Rightarrow \hat{f} (x) = E (Y ∣ X = x)$

如果当每一个样本点的维数增多的时候(即特征维度增多)，所需要的N的数量会急速增加。

条件概率公式展开

期望: $E [x] = \sum_{x} x P (X = x) ，当 x 是非连续变量； E (x) = \int x P (X = x) d x ，当 x 是连续变量$

损失函数： $L (X, f (X)) = (Y - f (X))^{2}$ ，也写作 $L_{2}$ 。还有一个 $L_{1} = ∣ Y - f (X) ∣$ 也是损失函数。第一类损失函数比第二类的优点：第一类鲁棒性更好，面对误差或者错误标注的数据能更好的抵抗

EPE, Excepted prediction error, 描述 $y$ 与 $\overset{y}{^}$ 之间的差异:

E P E (f) = E (Y - F (X))^{2} = \int (y - f (x))^{2} P r (d x, d y)

Since P r (X, Y) = P r (Y ∣ X) P r (X), EPE can also be written as

E P E (f) = E_{X} E_{Y ∣ X} ([Y - f (X)]^{2} ∣ X)

所以说，可以通过找EPE的最小值来进行寻找合适的参数，如：

f (x) = arg c min E_{Y ∣ X} ([Y - c]^{2} ∣ X = x)

回归方程: $f (x) = E (Y ∣ X = x)$

Linear Regression

$f (x) \approx x^{T} β$ ，是一个有模型预测的回归模型。这里我们假设了线性模型。

由于有了对回归模型的假设，我们对样本量的需求比kNN算法小了很多。这里的EPE为：

E P E (f) = E (Y - f (X))^{2} = E ((Y - X^{T} β)^{T} (Y - X^{T} β)) = E (∣∣ Y - X^{T} β ∣ ∣_{2}^{2})

\frac{\partial (( Y - X ^{T} β ) ^{T} ( Y - X ^{T} β ) ) ^{'}}{\partial β} = \frac{\partial ( Y ^{T} Y - β ^{T} X Y - Y ^{T} X ^{T} β + β ^{T} X X ^{T} β ) ^{'}}{\partial β}

= 0 - X Y - Y^{T} X^{T} + (X X^{T} + X^{T} X) β = 0

∴ β = [E (X X^{T})]^{- 1} E (X Y)

而根据残差平方和，

RSS (β) = i = 1 \sum N (y_{i} - x_{i}^{T} β)^{2}

当残差平方和最小的时候，有 $β = (X^{T} X)^{-} 1 X^{T} y$

协方差

Covariance， $Cov (X, Y) = E [(X - E [X])^{T} T (Y - E [Y])] = V a r + B ia s^{2}$ ，是方差加上偏差的平方。

方差 $Var (X) = Cov (X, X)$

kNN

分类输出变量 $G$ 的程序，其值来自 $g$ 。损失函数是一个 $K \times K$ 的矩阵 $L$ ，而 $K = c a r d (g)$

$L (k, l)$ 是错误把 $g_{k}$ 里的内容估计成 $g_{l}$ 中内容所付出的代价。

所以，我们有了一个0-1损失方程： $L (k, l) = 1 - δ_{k l}, δ_{k l} = 1 if and only if k == l$

E P E = E_{X} k = 1 \sum K L [g_{k}, \hat{G} (X)] P r (g_{k} ∣ X)

\hat{G} (X) = a r g mi n_{g \in G} k = 1 \sum K L (g_{k}, g) P r (g_{k} ∣ X = x)

Or simply, \hat{G} (x) = a r g ma x_{g \in G} P r (g ∣ X = x)

Cross Validation

交叉验证

把一个数据集分成 $n$ 份，验证 $m$ 个 $k$ 的取值，那么对于每一次循环，把 $n$ 份中的一份作为测试集，循环 $m$ 次，计算 $k$

循环 $n$ 次之后去计算每一个 $k$ 的取值的平均准确度，找到准确度最大的一个

高维中的本地模型（local model）

随着维度的上升，本地模型逐渐演化成广域模型（global model）
- 如：在一个边长为1的p维的立方体中，取一个覆盖了 $r %$ 的数据（体积），那么设小立方体的边长为 $e_{p} (r) = r^{\frac{1}{p}}$ .
- 那么有： $e_{10} (0.01) = 0.63, e_{10} (0.1) = 0.80, e_{1} (0, 01) = 0.01, e_{2} (0.01) = 0.1$
高维空间中，数据去向样本空间的边缘。
- 假设有N个数据点，p维的空间，假设数据空间是一个单位球体（ $r = 1$ ）。那么中位距离（所有数据到样本空间中心点的距离的中位数）是 $d (p, N) = (1 - \frac{1}{2}^{\frac{1}{N}})^{\frac{1}{p}}$ 。那么就有 $d (10, 500) \approx 0.52$

Tip

对于一个p维的球体样本空间，有以下推论：
$i = 1 \prod n P r (∣∣ x_{i} ∣∣ > r) = \frac{1}{2}$ $P r (∣∣ x_{i} ∣∣ > r) = 1 - P r (∣∣ x_{i} ∣∣ \leq 2) = 1 - V_{p} (r) = 1 - \frac{π ^{\frac{p}{2}}}{Γ ( \frac{p}{2} + 1 )} r^{p} \approx 1 - r^{p} (当 p 极大时)$ $(1 - r^{p})^{N} = \frac{1}{2}$
可以得出中位距离的公式

函数拟合

数据集： $(x_{i}, y_{i})$ 的数值对，在 $(p + 1)$ 维中。有以下函数(ground-truth): $y_{i} = f (x_{i}) + ε_{i}, f : R^{p} \to R$
目标：找到一个对于 $f (x)$ 的好的逼近。给定训练样本集 $τ$

text{给定参数集合 $θ$ ，那么对于线性模型，有}f(x)=x^T\beta$$

而 θ = β ，其中这两个可以是 scalar ，也可以是 vector 或 matrix

f_{θ} (x) = k = 1 \sum K h_{k} (x) θ_{k}

h_{k} ：一个函数，可以将非线性的输入转换成线性的输入

如：有 $x_{1}, x_{2}$ 两个轴，组成的样本集的分界线是一个圆。那么可以令

h_{k} (x_{1}, x_{2}) = x_{1}^{2} + x_{2}^{2} 转换成一个线性的问题

$h_{k}$ 的例子:

h_{k} (x) = x_{1} x_{2}^{2} (Polynomial expansion), h_{k} (x) = cos (x_{1}) (Trigonometric expansion)

h_{k} (x) = \frac{1}{1 + exp ( - x ^{T} β _{k} )} (Sigmoid expansion)

然后利用 $R S S$ 进行拟合 $θ$ ：

R S S (θ) = i = 1 \sum N (y_{i} - f_{θ} (x_{i}))^{2}

最大似然估计 MLE

使用 $P r_{θ} (y)$ （预测值）去估计 $P r (y)$ （真实值） Lamma：KL散度：

K L (p ∣∣ q) = \int p (x) lo g \frac{p ( x )}{q ( x )} d x = \int p (x) lo g p (x) d x - \int p (x) lo g q (x) d x = - H [x] - E [lo g q (x)]

推导MLE：

θ min K L (p (y) ∣∣ p_{θ} (y)) = \int p (y) lo g p (y) d y - \int p (y) lo g p_{θ} (y) d y = C - \int p (y) lo g p_{θ} (y) d y

由于 $\int p (y) lo g p (y) d y$ 是对 $y$ 的焓，所以是一个常数。考虑Monte Carlo方法抽样：

E [x] = \int x p (x) d x = \frac{1}{K} k = 1 \sum K x_{k}, x_{k} \sim p (x)

即在 $p (x)$ 中抽样。当 $K$ 足够大，可以认为与期望是相等的。那么有：

θ min K L (p (y) ∣∣ p_{θ} (y)) = C - \frac{1}{N} i = 1 \sum N lo g p_{θ} (y_{i})

去掉常数（因为是对 $θ$ 求最小），有：

θ max l (θ) = i = 1 \sum N lo g P r_{θ} (y_{i})

注意求最小，但是有个负号，所以是对这个求最大。

对于高斯分布的概率密度函数求MLE:

l (θ) = i = 1 \sum N lo g P r_{θ} (X) = - \frac{N}{2} lo g (2 π) - N lo g σ - \frac{1}{2 σ ^{2}} i = 1 \sum N (y_{i} - f_{θ} (x_{i}))^{2}

求最大值那么对 $l$ 求偏导，因为 $θ$ 包含了两个参数， $μ, σ$

对训练数据集 $τ$ ，那么

l (θ ∣ τ) = i = 1 \sum N lo g P r_{θ} (x_{i}, y_{i}) = i = 1 \sum N lo g P r_{θ} (y_{i} ∣ x_{i}) P r_{θ} (x_{i}) = i = 1 \sum N lo g P r_{θ} (y_{i} ∣ x_{i})

注意这里省去了 $P r_{θ} (x_{i})$ 是因为这个不是我们需要估计的，是给定的随机变量 $x$

简单线性估计

最小二乘法

单变量的求解：

\hat{β}_{0}, \hat{β} = argmin_{β_{0}, β} i = 1 \sum N (y_{i} - β_{0} - β x_{i})^{2}

\hat{β} = \frac{\sum _{i = 1}^{N} ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{\sum _{i = 1}^{N} ( x _{i} - x ˉ ) ^{2}}

\hat{β}_{0} = \overset{y}{ˉ} - \hat{β} \overset{x}{ˉ}

但是求解单变量的时候，尽量是从 $β_{0}$ 入手，为了以后求解正则化项作保障。正则化项不能包含 $β_{0}$ ，因为 $β_{0}$ 只是斜率，与自变量没有任何关系，惩罚这个项没有任何意义。

对于多变量， $X = (X_{1}, X_{2}, \dots, X_{p})^{T}$

f (X) = β_{0} + j = 1 \sum p X_{j} β_{j}

R S S (β) = i = 1 \sum N (y_{i} - f (x_{i}))^{2} = i = 1 \sum N (y_{i} - β_{0} - j = 1 \sum p x_{ij} β_{j}) = (y - X β)^{T} (y - X β)

\frac{\partial R S S ( β )}{\partial β} = - 2 X^{T} (y - X β) = 0

\Rightarrow \hat{β} = (X^{T} X)^{- 1} X^{T} y

需要满足： $X^{T} X$ 是可逆的。

\overset{y}{^} = X \hat{β} = X (X^{T} X)^{- 1} X^{T} y = H y

其中， $H$ 是一个投影矩阵。相当于是从 $x$ 空间向 $y$ 空间的投影

对于多输出：

Y_{k} = β_{o k} + j = 1 \sum p X_{j} β_{j k} + ε_{k} = f_{k} (X) + ε_{k}

Y = X B + E

R S S (B) = k = 1 \sum K i = 1 \sum N (y_{ik} - f_{k} (x_{i}))^{2} = ∣∣ Y - X B ∣ ∣_{F}^{2}

∣∣ A ∣ ∣_{F}^{2} = t r (A^{T} A) = ij \sum a_{ij}^{2}

R S S (B) = t r ((Y - X B)^{T} (Y - X B)) = t r (Y^{T} Y) - 2 t r (B^{T} X^{T} Y) + t r (B^{T} X^{T} X B)

\frac{\partial R S S ( B )}{\partial B} = - 2 X^{T} Y + 2 X^{T} X B = 0 \Rightarrow \hat{B} = (X^{T} X)^{- 1} X^{T} Y

$t r (A)$ 是迹，是对角线上的元素相加

关于奇异性

假设有一个矩阵， $p$ 维，训练样本集有 $N$ 个数据 $\Rightarrow$ 输入样本集 $X$ 是一个 $N \times p$ 的矩阵

要想 $X^{T} X$ 是一个非奇异的矩阵，需要满足 $r ank (X) = p$ ，即满秩的矩阵

矩阵的描述	秩	奇异性
胖	$r ank (X) \leq N < p$	一定是奇异矩阵
方阵	$r ank (X) \leq N, p$ ， $N = p$	需要有 $r ank (X) = p = N$
瘦	$r ank (X) \leq p < N$	需要有 $r ank (X) = p$

非满秩：有多余信息，维度高，样本少 $\Rightarrow$ 解决方案：1. 特征选择（降维，去掉某些不必要的特征）2. 正则化（添加一个正则化项使 $\hat{β} = (X^{T} X + λ I)^{- 1} X^{T} y$ ）

$X^{T} X + λ I$ 一定是满秩的： $X^{T} X + λ I = (U V U^{T})^{T} (U V U^{T}) + λ I = U V^{2} U^{T} + λ U U^{T} = U (V^{2} + λ I) U^{T}$ ，因为 $V^{2}$ 是一个每个项都是大于等于0的对角矩阵，那么加上一个大于0的单位矩阵一定是一个满秩的对角矩阵

岭回归 Ridge Regression

\hat{β}^{ridge} = ar g β min {i = 1 \sum N (y_{i} - β_{0} - j = 1 \sum p x_{ij} β_{j})^{2} + λ j = 1 \sum p β_{j}^{2}}

注意正则化不包含 $β_{0}$ 截距

另一种表示方式：

\hat{β}^{ridge} = ar g β min ∣∣ Y - β_{0} - X β ∣ ∣_{2}^{2} ， subject to ∣∣ β ∣ ∣_{2}^{2} \leq t

P R S S (λ, β) = (y - X β)^{T} (y - X β) + λ β^{T} β

\frac{\partial P R S S ( λ , β )}{\partial β} = - 2 X^{T} y + 2 (X^{T} X + λ I) β = 0 \Rightarrow \hat{β}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

与最小二乘法对比：

X β^{ls} = (X^{T} X)^{- 1} X^{T} y = j = 1 \sum p u_{j} u_{j}^{T} y

X β^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y = j = 1 \sum p \frac{d _{j}^{2}}{d _{j}^{2} + λ} u_{j}^{T} y

其中， $X^{T} X$ 进行SVD分解之后的结果是 $U D U^{T}$ ， $u$ 属于 $U$ ， $d$ 属于 $D$

有效自由度（表示复杂度的一种方法）：

df (λ) = j = 1 \sum p \frac{d _{j}^{2}}{d _{j}^{2} + λ} u_{j}^{T} y

假设训练样本集的输入是一个 $p$ 维的：

λ \to 0 \Rightarrow df (λ) \to p ，相当于没有正则化

λ \to \infty \Rightarrow df (λ) \to 0 ，正则化惩罚过强，不在关心 Loss 函数，导致原来的模型极端简单

Lasso回归

是一种稀疏的回归方式

我们希望对 $β_{i}$ 不为零的项进行惩罚，因为只有 $β_{i} \neq = 0$ 才会导致模型变得复杂。所以需要使用“零范数”用作惩罚项。（岭回归用的是二范数座位惩罚项）

使用零范数的时候称为“最佳子集回归”，best subset regression。

但是零范数是一个非凸曲线，无法使用求导来进行分析最小值。包括所有 $p$ 范数( $0 < p < 1$ )都是非凸的。那么距离零范数最近的一个最小的凸曲线的范数是一范数。（注意，在一范数的顶点位置还是不能求导，因为不连续）。所以Lasso回归使用了一范数

\hat{β}^{lasso} = ar g β min {\frac{1}{2} i = 1 \sum N (y_{i} - β_{0} - j = 1 \sum p x_{ij} β ∣ j)^{2} + λ ∣ β_{j} ∣}

= ar g β min {\frac{1}{2} ∣∣ Y - β - X β ∣ ∣_{2}^{2} + λ ∣∣ β ∣ ∣_{1}}

与最小二乘法对比

\hat{β}^{ridge} = \frac{1}{1 + λ} \hat{β}^{ls}

\hat{β}_{j}^{lasso} = s i g n (\hat{β}_{j}^{ls}) (∣ \hat{β}_{j}^{ls} ∣ - λ)_{+}

MAP

\hat{β}^{M A P} = ar g β max P r (y ∣ X, β) P r (β)

P r (β) 是由岭回归或者 Lasso 回归计算的， P r (y ∣ X, β) 是最小二乘法计算的

r i d g e : P r (β) = N (β ∣0, \frac{1}{λ} I_{p}) ，高斯分布

l a sso : P r (β) = \frac{λ}{2} e^{- λ ∣∣ β ∣ ∣_{1}}

简单分类器

线性分类器

利用不同类别赋值不同，把每个类别赋值作为输出( $y_{i}$ )，进行线性回归，找到 $y_{i} = x^{T} \hat{β} = 0.5$ 的那条线

拟合函数需要满足

\hat{f} (x) = \hat{B}^{T} (1 x) = \hat{f}_{1} (x) \hat{f}_{2} (x) ⋮ \hat{f}_{K} (x) \in R^{K}

对x的分类： $\hat{G} (X) = ar g max_{k \in g} \hat{f}_{k} (x)$ ，相当于是寻找可能性最大的那个类别 $k$ ，或者等效写作：

\hat{G} (x) = ar g k \in g min ∣∣ \hat{f} (x) - t_{k} ∣ ∣_{2}^{2} ， t_{k} 是类别标号，即寻找相关性最强，类别最近的一个

\hat{G} (x) = ar g k \in g max P r (G = k ∣ X = x) ，后验概率

如果是简单的线性回归去拟合，可能会导致掩盖掉某些类。具体情况查看L5-p14

所以需要把线性回归拓展到非线性空间：加上一些二次项或者更高次的项然后再进行回归，最后把回归的结果映射回线性空间，得到一个非线性的分界线

LDA

使用基于贝叶斯的后验概率

P r (G = k ∣ X = x) = \frac{P r ( X = x ∣ G = k ) P r ( G = k )}{P r ( X = x )} = \frac{P r ( X = x ∣ G = k ) P r ( G = k )}{\sum _{l = 1}^{K} P r ( X = x ∣ G = l ) P r ( G = l )}

f_{k} (x) = P r (X = x ∣ G = k)

π_{k} = P r (G = k)

类别分布 = Π_{k = 1}^{K} π_{k}^{1_{x = k}}

1_{x = k} = {10 x = k x \neq = k

边界（概率相等的地方）：

{x ∣ P r (G = k ∣ X = x) = P r (G = l ∣ X = x)}

\Rightarrow \frac{Pr ( G = k ∣ X = x )}{P r ( G = l ∣ X = x )} = 1 \Rightarrow ln \frac{P r ( X = x ∣ G = k ) P r ( G = k )}{P r ( X = x ∣ G = l ) P r ( G = l )} = 0

\Rightarrow LDA ： β^{T} X + β_{0} = 0

P r (G = k ∣ X = x) = \frac{f _{k} ( x ) π _{k}}{\sum _{l = 1}^{K} f _{l} ( x ) π _{l}}

对于高维高斯分布的LDA:

f_{k} (x) = \frac{1}{( 2 π ) ^{\frac{p}{2}} ∣ Σ _{k} ∣ ^{\frac{1}{2}}} exp (- \frac{1}{2} (x - μ_{k})^{T} Σ_{k}^{- 1} (x - μ_{k}))

我们做一个假设：对于所有的 $Σ_{k} = Σ$ ，即任意的 $Σ_{k}$ 都相等。这里的 $Σ_{k}$ 是 $k$ 分类的方差（ $σ_{k}^{2}$ ）

Logit ： ln \frac{P r ( G = k ∣ X = x )}{P r ( G = l ∣ X = x )} = ln \frac{f _{k} ( x )}{f _{l} ( x )} + ln \frac{π _{k}}{π _{l}}

= ln \frac{π _{k}}{π _{l}} - \frac{1}{2} (μ_{k} + μ_{l})^{T} Σ^{- 1} (μ_{k} - μ_{l}) + x^{T} Σ^{- 1} (μ_{k} - μ_{l})

\Rightarrow \overset{π}{^}_{k} = \frac{N _{k}}{N}, \overset{μ}{^}_{k} = g_{i} = k \sum \frac{x _{i}}{N _{k}}, \hat{Σ} = k = 1 \sum K g_{i} = k \sum \frac{( x _{i} - μ ^ _{k} ) ( x _{i} - μ ^ _{k} ) ^{T}}{N - K}

	$X_{1}$	$X_{2}$	G
$x_{1}^{T}$	0.2	0.3	1
$x_{2}^{T}$	0.8	0.7	3
$x_{3}^{T}$	0.4	0.6	2
$x_{4}^{T}$	0.6	0.4	2
$x_{5}^{T}$	0.3	0.2	1
$x_{6}^{T}$	0.7	0.8	3

\overset{π}{^}_{1} = \overset{π}{^}_{2} = \overset{π}{^}_{3} = \frac{1}{3}

\overset{μ}{^}_{1} = \frac{1}{2} (x_{1} + x_{5}) = \frac{1}{2} (0.2 0.3) + \frac{1}{2} (0.3 0.2) = (0.25 0.25)

\overset{μ}{^}_{2} = \frac{1}{2} (x_{3} + x_{4}) = (0.5 0.5)

\overset{μ}{^}_{3} = \frac{1}{2} (x_{2} + x_{6}) = (0.75 0.75)

\hat{Σ} = \frac{( 0.005 - 0.005 - 0.005 0.005 ) + ( 0.02 - 0.02 - 0.02 0.02 ) + ( 0.005 - 0.005 - 0.005 0.005 )}{6 - 3} = (0.01 - 0.01 - 0.01 0.01)

ln \frac{P r ( G = 1∣ X = x )}{P r ( G = 2∣ X = x )} = ln \frac{π ^ _{1}}{π ^ _{2}} - \frac{1}{2} (\overset{μ}{^}_{1} + \overset{μ}{^}_{2})^{T} \hat{Σ}_{λ}^{- 1} (μ_{1} - μ_{2}) + x^{T} \hat{Σ}_{λ}^{- 1} (\overset{μ}{^}_{1} - \overset{μ}{^}_{2})

= 0.1875 - (x_{1}, x_{2}) (0.25 0.25) = 0

\Rightarrow 边界为 {(x_{1}, x_{2}) ∣ x_{1} + x_{2} = 0.75} ，其中 \hat{Σ}_{λ} = \hat{Σ} + λ I, λ = 1

定义线性判别函数为 $δ_{k} (x) = x^{T} Σ^{- 1} μ_{k} - \frac{1}{2} μ_{k}^{T} Σ^{- 1} μ_{k} + ln π_{k}$

在 $x$ 点，哪一个类的 $δ_{k} (x)$ 大，这个点就是哪一类的。当 $δ_{k} (x) = δ_{l} (x)$ 的时候，说明这个点事 $l$ 类和 $k$ 类的边界线上

QDA

相对LDA，少了一个假设： $Σ_{k} = Σ, \forall k \in G$

所以特征表达更好，但是计算的特别多。

LDA计算 $K \times p + p \times p$ 个参数，只需要估计 $π, μ, Σ$

QDA计算 $K \times p + K \times p \times p$ 个参数，需要估计 $π, μ, Σ_{k} \forall k \in G$

判别式： $δ_{k} (x) = - \frac{1}{2} ln ∣ Σ_{k} ∣ - \frac{1}{2} (x - μ_{k})^{T} Σ_{K}^{- 1} (x - μ_{k}) + ln π_{k}$

LDA 正则化与降维

RLDA 正则化LDA

\hat{Σ} (γ) = γ \hat{Σ} + (1 - γ) diag (\hat{Σ}), γ \in [0, 1]

Diagonal LDA 对角LDA

\hat{Σ} = d ia g (\hat{Σ})

低方差（高复杂度），高偏差				高方差，低偏差（高准确度）
Diag LDA	RLDA	LDA	RQDA	QDA
$d ia g (\hat{Σ})$	$\hat{Σ} (γ)$	$\hat{Σ}$	$\hat{Σ}_{k} (α)$	$\hat{Σ}_{k}$

Fisher Formulation of Discriminant Analysis

lo g \frac{P r ( G = k ∣ X = x )}{P r ( G = l ∣ X = x )} = δ_{k} (x) - δ_{l} (x)

δ_{k} (x) \propto lo g P r (G = k ∣ X = x)

lo g P r (G = k ∣ X = x) = - \frac{1}{2} (x - \overset{μ}{^}_{k})^{T} \hat{Σ}^{- 1} (x - \overset{μ}{^}_{k}) + ln \overset{π}{^}_{k} + C

= - \frac{1}{2} ∣∣ x^{*} - \overset{μ}{^}_{k}^{*} ∣ ∣^{2} + ln \overset{π}{^}_{k} + C

\hat{G} (x) = ar g k \in g max δ_{k} (x) = ar g k \in g min \frac{1}{2} ∣∣ x^{*} - \overset{μ}{^}_{k}^{*} ∣ ∣^{2} - ln \overset{π}{^}_{k}

其中， $x^{*} = \hat{Σ}^{- \frac{1}{2}} x$ ， $\overset{μ}{^}_{k}^{*} = \hat{Σ}^{- \frac{1}{2}} \overset{μ}{^}_{k}$

目的：白化（球化），使协方差矩阵变成单位矩阵。目的：降低两个类别之间的重叠区域。

高级分类器

Boosting

通过弱分类器投票决定一个强分类器 Input:

S = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m})}

$D_{t}$ 是 ${x_{1}, \dots, x_{m}}$ 这些点的权重， $α$ 是每一个分类器在投票里面所占权重 Run $A$ on $D_{t}$ producing

h_{t} : X \to {- 1, 1}

ϵ_{t} = P_{x_{i} \sim D_{t}} (h_{t} (x_{i}) \neq = y_{i}) = \frac{1}{M} n = 1 \sum M 1 [h_{t} (x_{i}) \neq = y_{i}] ，即错误分类的概率

H_{final} (x) = sign (t \sum α_{t} h_{t} (x))

计算流程：

初始化： D_{1} (i) = \frac{1}{m}

ϵ_{t} = \frac{1}{m} n = 1 \sum m 1 [h_{t} (x_{i}) \neq = y_{i}]

α_{t} = \frac{1}{2} ln (\frac{1 - ϵ _{t}}{ϵ _{t}})

Z_{t} = 2 ϵ_{t} (1 - ϵ_{t})

D_{t + 1} (i) = {\frac{D _{t} ( i )}{Z _{t}} e^{- α_{t}} \frac{D _{t} ( i )}{Z _{t}} e^{α_{t}} 分类正确，减少该点权重，更注意分类错误的点 分类错误，提高权重

训练次数为 $T = O (\frac{1}{γ ^{2}} ln \frac{1}{ϵ})$

SVM

间隔 $γ = min \frac{y ω ^{* T} x}{∣∣ ω ^{*} ∣∣}$

求解：应用拉格朗日乘数法：

L (w, b, α) = \frac{1}{2} ∣∣ w ∣ ∣^{2} + \sum α_{i} (1 - y_{i} (w \cdot x_{i} - b))

{\frac{\partial L}{\partial w} = 0 \frac{\partial L}{\partial b} = 0 \Rightarrow w = \sum α_{i} y_{i} x_{i} 0 = \sum α_{i} y_{i} \Rightarrow L (w, b, α) = i = 1 \sum m α_{i} - \frac{1}{2} i = 1 \sum m j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i}^{T} \cdot x_{j})

上面的 $x_{i}^{T} \cdot x_{j}$ 可以使用核函数进行升维

\Rightarrow ⎩ ⎨ ⎧ α_{i} \geq 0 y_{i} f (x_{i}) - 1 \geq 0 α_{i} (y_{i} f (x_{i}) - 1) = 0

然后使用SMO (Sequential Minimal Optimization)求解

SMO相关简介

详情参见KKT Condition

半监督SVM

根据有标签的点进行分类，计算得出一个模型，然后根据这个模型对无标签的样本点分类，然后对分好类的样本点再一次计算模型，重复迭代。

聚类

假设 $P (X_{1}, \dots . X_{N})$ 是多分布的混合模型，处于一个 $n$ 维的变量空间，使用离散的随机变量 $Z$ 指示是哪一个分布正在被使用。所以 $P (X_{1} \dots X_{N}) = \sum_{i} P (Z = i) P (X_{1} \dots X_{N} ∣ Z)$ ，其中 $Z$ 是一个隐变量， $P (Z = i)$ 属于某个高斯分布的先验。贝叶斯图像如图：

graph TB
Z-->X1
Z-->X2
Z-->...
Z-->XN

假设每个数据点都是 $n$ 维的数据，即 $X = ⟨ X_{1}, \dots, X_{n} ⟩$ ，假设 $X_{i}$ 之间相互独立（高斯分布的朴素贝叶斯假设）
$P (X ∣ Z = j) = i \prod N (x_{i} ∣ μ_{ij}, σ_{ij})$
根据先验的Gaussian分布 $P (Z = i)$ 进行随机采样 $i$ （假设只有两个类，并且 $\forall i, j, σ_{j i} = σ$ ，假设认为所有的方差相同）
$P (X) = j = 1 \sum 2 P (Z = j ∣ π) i \prod N (x_{i} ∣ μ_{ij}, σ)$
根据 $N (μ_{i}, Σ_{i})$ 随机生成数据点 $⟨ x_{1}, \dots, x_{n} ⟩$

假设已经知道了 $σ$ ，还需要知道 $π_{1}, \dots, π_{k}$ 和 $μ_{1 i}, \dots, μ_{K i}$

观测值： $X = ⟨ X_{1}, \dots, X_{n} ⟩$ ，隐变量： $Z$

使用EM算法进行估计：

Define $Q (θ^{'} ∣ θ) = E_{Z ∣ X, θ} [lo g P (X, Z ∣ θ^{'})], θ = ⟨ π, μ_{j i} ⟩$

E-step:

P (z (n) = k ∣ x (n), θ) = \frac{\prod _{i} N ( x _{i} ( n ) ∣ z ( n ) = k , θ ) ( π ^{k} ( 1 - π ) ^{1 - k} )}{\sum _{j = 0}^{1} [ \prod _{i} N ( x _{i} ( n ) ∣ μ _{j i} , σ )] ( π ^{j} ( 1 - π ) ^{1 - j} )}

M-step:

π \leftarrow \frac{1}{N} n = 1 \sum N E [z (n)]

μ_{j i} \leftarrow \frac{\sum _{n = 1}^{N} P ( z ( n ) = j ∣ x ( n ) , θ ) x _{i} ( n )}{\sum _{n = 1}^{N} P ( z ( n ) = j ∣ x ( n ) , θ )}

使用贝叶斯网络进行优化

最小化 $KL (P ∣∣ T) = - \sum_{i} I (X_{i}, P a (X_{i})) + \sum_{i} H (X_{i}) - H (X_{1} \dots X_{n})$

其中，边缘概率密度分布 $I (A, B) = \sum_{a} \sum_{b} P (a, b) lo g \frac{P ( a , b )}{P ( a ) P ( b )}$ ， $P a (X_{i})$ 指的是在图中 $X_{i}$ 的直接父节点。 $H$ 是焓。

给定 $I$ ，然后根据最大化 $I$ 的思路去建树，根据这个树进行优化

GMM

协同训练

假设有一个样本多个特征，其中一个特征的分类置信度很高，那么认为这个样本其他的特征都是这一个分类的，然后根据这个分类进行再训练迭代

缺点：容易把错误放大

假设只有两个视角（两个类别的特征，训练分别是 $h_{1}$ 和 $h_{2}$ ）

ar g min_{h_{1}, h_{2}} l = 1 \sum 2 i = 1 \sum m_{l} l (h_{l} (x_{i}), y_{i}) + C i = 1 \sum m_{u} agreement (h_{1} (x_{i}), h_{2} (x_{i}))

其中 $l (h_{l} (x_{i}), y_{i})$ 是损失函数，一般是距离或者0/1损失， $agreement (h_{1} (x_{i}), h_{2} (x_{i}))$ 是 $h_{1}$ 和 $h_{2}$ 之间的差距，可以自定义

Similarity Based Regularity

找到距离最近的几个点，然后把自己的类别传递过去

如：根据相似度建图，取相似度小于等于 $ε$ 的之间连一条边，然后根据已经有的样本标签传递

相似度可以使用Gaussian Kernel来计算： $K (x, z) = exp [- \frac{∣∣ x _{i} - x _{j} ∣ ∣ ^{2}}{2 σ ^{2}}]$ ，其中 $x_{i}$ 和 $x_{j}$ 是两个样本点的特征向量

可以把相似度组成一个矩阵（对称的）： $w_{ij} = exp [- \frac{∣∣ x _{i} - x _{j} ∣ ∣ ^{2}}{2 σ ^{2}}] \Rightarrow W$ ，然后只需要进行最小化目标函数：

f min e = (i, j) \sum w_{e} ∣∣ f_{i} - f_{j} ∣ ∣^{2} = 2 f^{T} (D - W) f

其中， $f$ 是标签组成的一个矩阵，D是W的对角矩阵，现在令 $L = D - W$ 有 $min_{f} f^{T} L f$ 。这种方法叫做Spectral Clustering

然后因为有一些标签是已知信息，所以要加上Loss：

f min ij \sum w_{ij} ∣∣ f_{i} - f_{j} ∣ ∣^{2} - C i = 1 \sum m_{e} ∣∣ y_{i} - f_{i} ∣ ∣^{2}

令 $f = β X$ ,

\Rightarrow f^{T} L f = β^{T} X^{T} L X β \Rightarrow min β^{T} X^{T} L X β + λ ∣∣ y - X β ∣ ∣_{2}^{2} + α ∣∣ β ∣ ∣^{2}

最终的类似一个岭回归，当时还存在local的信息（ $β^{T} X^{T} L X β$ ）

GMM

Generative Model中的高斯混合模型（Gaussian Mixture Model）

变量： $θ = {π_{i}, μ_{i}, Σ_{i}}_{i = 1}^{K}$ ，其中 $π_{i}$ 是分类的先验概率， $μ_{i}$ 是高斯的均值， $Σ_{i}$ 是高斯的协方差矩阵

联合概率密度分布： $p (x, y ∣ θ) = \sum_{i = 1}^{K} π_{i} N (x; μ_{i}, Σ_{i})$

分类： $p (y ∣ x, θ) = \frac{p ( x , y ∣ θ )}{\sum _{i = 1}^{K} p ( x , y _{i} ∣ θ )}$

kernel函数

找到内积 $X X^{T}$ 才能使用（ $d \times n$ 的矩阵，至少结果需要是一个 $d \times d$ 的矩阵）

常用kernel：

Linear: K (x, z) = x \cdot z

Polynomial: K (x, z) = (x \cdot z)^{d} or K (x, z) = (x \cdot z + 1)^{d}

Gaussian: K (x, z) = exp [- \frac{∣∣ x - z ∣ ∣ ^{2}}{2 σ ^{2}}] ， σ 是超参数

Laplace: K (x, z) = exp [- \frac{∣∣ x - z ∣∣}{2 σ ^{2}}]

直接对内积使用核函数，可以将原本是时间复杂度极大的矩阵乘法降低为 $O (n)$

核函数可以相加可以相乘，所以可以根据这点直接构建一个新的核函数（称为多核学习）

Bayes

贝叶斯估计与惩罚

P r (A, B) = P r (A ∣ B) P r (B) = P r (B ∣ A) P r (A)

P r (B ∣ A) = \frac{P r ( A ∣ B ) P r ( B )}{P r ( A )}

有惩罚的损失函数：

P R S S (f; λ) = R S S (f) + λ J (f)

$λ$ 是超参数，自己定义。 $λ$ 越大，惩罚越大，原来的约束条件越小，模型越简单；反之，原来训练集的约束条件越大，模型越复杂。

$J (f)$ 是对模型复杂度的描述。这个是为了防止在参数很少的时候训练导致过拟合（就是这个模型只适用于这一些少量的参数，对于大量的其他没有训练的参数反而不适用）

如：对于cubic smoothing spline（这个就是 $J (x) = \int [f^{''} (x)]^{2} d x$ ）的最小二乘法：

P R S S (f; λ) = i = 1 \sum N (y_{i} - f (x_{i}))^{2} + λ \int [f^{''} (x)]^{2} d x

后面的 $λ J (x)$ 也可以称作正则化项，对抗过拟合

对实验结果的修正

对于一些实验次数非常少的实验，结果可能偏差较大，导致得出的结论过拟合或者不准确。那么可以根据先验概率（经验）进行修正。实验次数越少修正越大

如：掷硬币：

先验(prior)： $P (X = 1) = 0.5$

第一种算法： $P (X = 1) = \frac{1}{n} \frac{1}{2} + (1 - \frac{1}{n}) \frac{α _{1}}{α _{1} + α _{0}}$
第二种算法: $P (X = 1) = \frac{α _{1} + β _{1}}{α _{1} + β _{1} + α _{0} + β _{0}}$ $\hat{θ}^{MLE} = \frac{α _{1}}{α _{1} + α _{0}}$

$α_{1}$ 是投出 $X = 1$ 的次数， $α_{0}$ 是投出 $X = 0$ 的次数。而 $β$ 是修正值。

分类器

P r (W = w ∣ G = g, H = h) = \frac{P r ( W = w , G = g , H = h )}{\sum _{w} P r ( G = g , H = h , W = w )}

通过求和把 $W$ 项消除掉

参数的个数

假设输入 $X = ⟨ X_{1}, X_{2}, \dots, x_{n} ⟩$ ，那么所有的 $X$ 的可能性有 $2^{n}$ 种。

假设有 $n = 30$ ，那么一共有 $2^{30} \approx 1 0^{9}$ 数据量过大

Naive Bayes 朴素贝叶斯

进行假设：所有的特征都是相互独立的。（这个假设太强，实际中并不可能出现这种情况。但是可以用来简单模拟）

那么有 $P r (X_{1}, X_{2} ∣ Y) = P r (X_{1} ∣ Y) P r (X_{2} ∣ Y)$ 。这时如果有 $n$ 个参数，那么只需要计算 $2 n$ 次（分别是 $Y = 1$ 和 $Y = 0$ 两种情况，其他的每一个变量只需要计算一次即可，不需要考虑相关性）

训练Naive Bayes

对于所有的标签 $y_{k}$ ，分析计算 $π_{k} \equiv P (Y = y_{k})$ 。

对于多输入的 $X_{i}$ 向量：对每一个 $x_{ij} \in X_{i}$ ，计算 $θ_{ij k} = P (X_{i} = x_{ij} ∣ Y = y_{k})$

然后对 $X^{new}$ 进行分类：$ $Y^{new} = ar g max_{y_{k}} P (Y = y_{k}) \prod_{i} P (X_{i}^{new} ∣ Y = y_{k}) = ar g max_{y_{k}} π_{k} \prod_{i} θ_{ij k}$ $ 目标函数：

l (θ, π) = ln P r (D, θ, π) = ln ((x_{0}, y_{0}), \dots, (x_{n}, y_{n}))

= i = 1 \sum n ln P r (x_{i}, y_{i} ∣ θ, π) = i = 1 \sum n ln P r (x_{i} ∣ y_{i}, θ) P r (y_{i} ∣ π)

= i = 1 \sum n ln P r (x_{i} ∣ y_{i}, θ) + i = 1 \sum n ln P r (y_{i} ∣ π)

D = {x_{i}, y_{i}}_{i = 1}^{m}

\frac{\partial l ( θ , π )}{\partial θ} = \frac{\partial \sum _{i = 1}^{n} ln P r ( x _{i} ∣ y _{i} , θ )}{\partial l} = 0

\frac{\partial l ( θ , π )}{\partial π} = \frac{\partial \sum _{i = 1}^{n} ln P r ( y _{i} ∣ π )}{\partial π} = 0

如果假设不成立，强行使用也可以。但是如果有两个特征强相关，极端一点假设 $X_{i} = X_{j}$ ，那么会过度关注于 $X_{i}$ ，因为这一项可以看成是平方了。

还有就是样本不够的时候会出现某一些 $P r (X_{i} ∣ Y) = 0$ 的情况，导致整个模型不可用

所以要引入先验的修正，从MLE变成MAP

MLE计算：

\overset{μ}{^}_{ik} = \frac{1}{\sum _{j} δ ( Y ^{j} = y _{k} )} j \sum X_{i}^{j} δ (Y^{j} = y_{k})

第 $i$ 个特征，对应第 $k$ 个类别，第 $j$ 个训练样本

\overset{σ}{^}^{2} = \frac{1}{\sum _{j} δ ( Y ^{j} = y _{k} )} j \sum (X_{i}^{j} - \overset{μ}{^}_{ik})^{2} δ (Y^{j} = y_{k})

Bayesian Net 贝叶斯网络

概率模型图

是一种有向无环图（DAG）

graph TB
Z-->Y
X-->Y

表示 $Y$ 受到 $X$ 影响， $Y$ 也受到 $Z$ 影响，但是 $Z$ 和 $X$ 相互独立，不相关

那么就可以化简成 $P (A, B ∣ Y) = P (A ∣ Y) P (B ∣ Y)$

然后就可以计算（CPD）联合概率密度分布:

	Y=1	Y=0
X=1,Z=1	$θ_{1, 1}$	$1 - θ_{1, 1}$
X=1,Z=0	$θ_{1, 0}$	$1 - θ_{1, 0}$
X=0,Z=1	$θ_{0, 1}$	$1 - θ_{0, 1}$
X=0,Z=0	$θ_{0, 0}$	$1 - θ_{0, 0}$

然后对上表的 $θ$ 进行估计

如：

graph TB
StormClouds-->Lighting-->Thunder
StormClouds-->Rain-->WindSurf
Lighting-->WindSurf

上述图表中，可以简单认为给定 $X_{i}$ 的所有直接父节点情况下， $X_{i}$ 和所有非子代节点的节点都独立。

(假设上面的单词使用首字母进行表示)

即，可以认为， $T ⊥ ⊥ W S, R, S C ∣ L$ ，以及 $W S ⊥ ⊥ T, S C ∣ {L, R}$ ，等

D-separate

graph TB
X-->Y-->Z
M-->N
M-->P
A-->B
C-->B

这个时候，有三种情况：

第一种原来是条件不独立，给定 $Y$ 之后变成条件独立
第二种原来条件不独立，给定 $M$ 后条件独立
第三种原来条件独立，给定 $B$ 之后条件不独立

可以认为，两者之间如果有一条通路，那么就算是条件独立。但是注意第三种，给定 $B$ 之后不是将通路打断，而是把断掉的通路合成

Markov Blanket

马尔科夫毯

$X_{M B_{i}}$ ：一个点 $X_{i}$ 的所有的直接父节点，子节点，联合父节点（直接子节点的直接父节点）组成的一部分

那么给定 $X_{M B_{i}}$ 之后， $X_{i}$ 和 $X_{\overset{ˉ}{M B_{i}}}$ 条件独立 $\Rightarrow X_{i} ⊥ ⊥ X_{\overset{ˉ}{M B_{i}}} ∣ X_{M B_{i}}$

CDP 联合概率分布

计算完所有的CDP之后就可以通过这个表进行计算所有需要的条件概率。

如：

	T=1	T=0
L=1	$θ_{1}$	$1 - θ_{1}$
L=0	$θ_{0}$	$1 - θ_{0}$

计算

P (T ∣ L) = θ_{1}^{T L} (1 - θ_{1})^{(1 - T) L} θ_{0}^{T (1 - L)} (1 - θ_{0})^{(1 - T) (1 - L)}

θ_{0}, θ_{1} = ar g θ_{0}, θ_{1} max l (θ_{0}, θ_{1}) = i = 1 \sum n ln P (T = t_{i} ∣ L = l_{i})

然后

P (S, L, R, T, W) = P (S) P (L ∣ S) P (R ∣ S) P (T ∣ L) P (W ∣ L, R)

P (S = 1, L = 0, R = 1, T = 0, W = 1)

= P (S = 1) P (L = 0∣ S = 1) P (R = 1∣ S = 1) P (T = 0∣ L = 0) P (W = 1∣ L = 0, R = 1)

P (S = 1∣ L = 0, T = 1) = \frac{P ( S = 1 , L = 0 , T = 1 )}{P ( T = 1 , L = 0 )}

= \frac{\sum _{w, r} P ( S = 1 , T = 1 , L = 0 , W = w , R = r )}{\sum _{w, r, s} P ( S = s , T = 1 , L = 0 , W = w , R = r )}

P (S = 1) = t, l, w, r \sum P (S = 1, T = t, L = l, R = r, W = w)

注意，给定的观测值越少，计算量就越多。

所以要转换成采样或者变分来做。

采样
$E_{P r (X ∣ Y)} [F (x)] = \int P r (X ∣ Y) F (X) d X = \frac{1}{K} k = 1 \sum K F (X_{k}), x_{k} \sim P r (X ∣ Y)$
使用Monte Carlo方法进行采样。但是有个问题，需要样本量极大
变分

使用Gaussian Distribution进行逼近
$ϕ min K L (q_{ϕ} (x) ∣∣ P r (X ∣ Y))$
其中 $q_{ϕ}$ 是使用高斯分布逼近的结果。

所以将这个问题变成了优化问题

对于连续随机变量

离散化： $X = 1, 2, 3, \dots$ ，其中 $X = i$ 意味着 $X \in [i - 1, i)$
对参数建模

使用Sigmoid函数进行分析： $σ (x) = \frac{1}{1 + e ^{x}}$

$\Rightarrow P (X = x ∣ Y = y) = \frac{1}{1 + e ^{- β_{1} y + β_{0}}}$ ，然后求解 $β_{1}, β_{0}$

隐变量

假设存在隐变量 $Z$ （虽然存在于模型中，但是没有任何观测数据），使用MLE：

ℓ (θ) = θ max E [ln P_{θ} (x)] = θ max E [ln \int p (x, z) d x]

估计下界：

ln P_{θ} (x) = ln \int p_{θ} (x, z) d x = ln \int q (z) \frac{p _{θ} ( x , z )}{q ( z )} d x

= ln E_{q (z)} [\frac{p _{θ} ( x , z )}{q ( z )}] \geq E_{q (z)} [ln p_{θ} (x, z) - ln q (z)] （吉森不等式）

取最小值时，等式成立，即

θ min ln P_{θ} (x) = E_{p_{θ} (z ∣ x)} [ln \frac{P _{θ^{'}} ( x , z )}{\sum _{z} P _{θ} ( x , z )}]

使用Expectation Maximization（MLE）进行估计

对隐变量 $Z$ 存在的模型进行估计：

θ \leftarrow ar g θ max lo g P (X, Z ∣ θ) \leftarrow ar g θ max E_{Z ∣ X, θ} [lo g P (X, Z ∣ θ)]

是迭代求解，可以在线计算，时间复杂度不高对于 $P (X, Z ∣ θ)$ ，正常使用全概率公式链式法则加上贝叶斯网格的先验进行优化计算即可

EM算法

EM算法，Exception Maximization Algorithm。

E-step：根据 $θ$ 计算隐变量的分布

M-step：根据计算所得隐变量的分布计算更新 $θ$

例子：

graph TB
Flu-->Sinus-->Headache
Allergy-->Sinus-->Nose

假设可观测值： $X = {F, A, H, N}$ ，隐变量 $Z = {S}$

P (S_{k} = 1∣ f_{k} a_{k} h_{k} n_{k}, θ) = \frac{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ )}{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ ) + P ( S _{k} = 0 , f _{k} z _{k} h _{k} u _{k} ∣ θ )}

E-step: Calculate $P (Z_{k} ∣ X_{k}; θ)$ for each training example, $k$

P (S_{k} = 1∣ f_{k} z_{k} h_{k} u_{k}, θ) = E [s_{k}] = \frac{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ )}{P ( S _{k} = 1 , f _{k} z _{k} h _{k} u _{k} ∣ θ ) + P ( S _{k} = 0 , f _{k} z _{k} h _{k} u _{k} ∣ θ )} (= P (Z ∣ X, θ))

M-step: update all relevant parameters. For example:

θ_{s ∣ i, j} \leftarrow \frac{\sum _{k = 1}^{K} δ ( f _{k} = i , a _{k} = j ) E [ s _{k} ]}{\sum _{k = 1}^{K} δ ( f _{k} = i , a _{k} = j )}

example
graph TB
Y-->X1
Y-->X2
Y-->X3
Y-->X4
Y X1 X2 X3 X4
1 0 0 1 1
0 0 1 0 0
0 0 0 1 0
? 0 1 1 0
? 0 1 0 1

EM算法的实现过程：

E-step:
$E_{P (Y ∣ X_{1} \dots X_{N})} [y (k)] = P (y (k) = 1∣ x_{1} (k), \dots, x_{N} (k); θ) = \frac{P ( y ( k ) = 1 ) \prod _{i} P ( x _{i} ( k ) ∣ y ( k ) = 1 )}{\sum _{j = 0}^{1} P ( y ( k ) = j ) \prod _{i} P ( x _{i} ( k ) ∣ y ( k ) = j )}$
M-step:

Y	X2	X3	X4
1	0	1	1
0	1	0	0
0	0	1	0
?	1	1	0
?	1	0	1

theta_{ij|m}=\hat P(X_i=j|Y=m)=\frac{\sum_kP(y(k)=m|x_1(k),\cdots,x_N(k))\delta(x_i(k)=j)}{\sum_kP(y(k)=m|x_1(k),\cdots,x_N(k))}$$

Knowledge Base

Explorer

Machine Learning

Fit

简单拟合

最小二乘法: Least Square

计算

残差

最近邻项: Nearest Neighbor

条件概率公式展开

Linear Regression

协方差

kNN

Cross Validation

高维中的本地模型（local model）

函数拟合

最大似然估计 MLE

简单线性估计

最小二乘法

关于奇异性

岭回归 Ridge Regression

Lasso回归

与最小二乘法对比

MAP

简单分类器

线性分类器

LDA

QDA

LDA 正则化与降维

RLDA 正则化LDA

Diagonal LDA 对角LDA

Fisher Formulation of Discriminant Analysis

高级分类器

Boosting

SVM

半监督SVM

聚类

使用贝叶斯网络进行优化

GMM

协同训练

Similarity Based Regularity

GMM

kernel函数

Bayes

贝叶斯估计与惩罚

对实验结果的修正

分类器

参数的个数

Naive Bayes 朴素贝叶斯

训练Naive Bayes

Bayesian Net 贝叶斯网络

概率模型图

D-separate

Markov Blanket

CDP 联合概率分布

对于连续随机变量

隐变量

EM算法

Graph View

Table of Contents

Backlinks