Fit

简单拟合

最小二乘法: Least Square

计算

Input: $X^{T} = (X_{1}, X_{2}, \dots, X_{p})$ ,
predict output via the model: $\hat{Y} = \hat{β_{0}} + \sum_{j = 1}^{p} X_{j} \hat{β}_{j}$

$\hat{β}_{j}$ : bias or intercept, 偏差

而 $\hat{β_{j}}$ 和 $\hat{β_{0}}$ 都是需要求解的参数,
Include the constant variable 1 in X: 在向量X中包含常数1: $\hat{Y} = X^{T} \hat{β}$

可令 $X_{0} = [1]$ , 则 $X^{T} = (X_{0}, X_{1}, \dots, X_{p})$ , 那么 $\hat{β} = \hat{β}_{0} \hat{β}_{1} ⋮ \hat{β}_{p}$ . 相当于是把最开头的那个 $\hat{β}_{0}$ 收到了参数向量 $\hat{β}$ 里面
这里的 $\hat{Y}$ 可以是标量, 可以是向量. 如果 $\hat{Y}$ 是k维向量, 那么就有 $\hat{β}$ 是一个 $p \times K$ 的参数矩阵(多元回归)
在(p+1)维的输入输出空间中, $(X, \hat{Y})$ 代表一个超空间. 如果 $\hat{β}_{o}$ 在 $\hat{β}$ 中, 那么这个超空间就经过原点.

ground-truth: $f (X) = X^{T} β$ , it’s gradient(梯度): $f^{'} (X) = β$ 是一个指向最陡的上升方向的向量.

Tip

补充: 矩阵导数:
$\frac{\partial f _{θ} ( X )}{\partial β} = X_{1} X_{2} ⋮ X_{p} = X$ $\frac{\partial β ^{T} A β}{\partial β} = (A + A^{T}) β$ $\frac{\partial β ^{T} X ^{T} Xβ}{\partial β} = (X^{T} X + X X^{T}) β$
其中, $X$ 是一个向量, $A$ 是一个二次型系数矩阵.

残差

N: # observations 观测量(样本空间)
minimize the residual sum of squares: $RSS (β) = i = 1 \sum N (y_{i} - x_{i}^{T})^{2}$ 向量(矩阵): $RSS (β) = (y - X β)^{T} (y - X β) = ∣∣ y - X β ∣ ∣_{2}^{2}$ $∣∣ y - B β ∣∣$ 是范数, 关于 $β$ 的函数, 是一个抛物面.

$∣∣ a ∣ ∣_{2} = a^{T} a, \forall a \in R^{p \times 1}$ $

范数: $

要找到最小值点, 需要求导数:

RSS (β) = (y - Xβ)^{T} (y - Xβ) = y^{T} y - X^{T} β^{T} y - y^{T} Xβ + β^{T} X^{T} Xβ

RS S^{'} (β) = X^{T} (y - Xβ)

如果 $X$ 不是奇异矩阵, 那么 $\hat{β} = (X^{T} X)^{- 1} X^{T} y$

最近邻项: Nearest Neighbor

分类.

model: $\hat{Y} (x) = \frac{1}{k} \sum_{x_{o} \in N_{k} (x)} y_{i}$
$N_{k} (x)$ : 最近的 $k$ 个元素的集合.
$y$ : 类别.
分类依据: 计算 $\hat{Y} (x)$ , 与0.5(二元)去对比

回归方程： $\hat{f} (x) = Ave (y_{i} ∣ x_{i} \in N_{k} (x))$

$N_{k}$ 表示前k个最近的元素。

需要极大样本量，才能够保证有均值与期望相接近。当 $k \to \infty$ 的时候，才会有 $\frac{k}{N} \to 0 \Rightarrow \hat{f} (x) = E (Y ∣ X = x)$

如果当每一个样本点的维数增多的时候(即特征维度增多)，所需要的N的数量会急速增加。

条件概率公式展开

期望: $E [x] = \sum_{x} x P (X = x) ，当 x 是非连续变量； E (x) = \int x P (X = x) d x ，当 x 是连续变量$

损失函数： $L (X, f (X)) = (Y - f (X))^{2}$ ，也写作 $L_{2}$ 。还有一个 $L_{1} = ∣ Y - f (X) ∣$ 也是损失函数。第一类损失函数比第二类的优点：第一类鲁棒性更好，面对误差或者错误标注的数据能更好的抵抗

EPE, Excepted prediction error, 描述 $y$ 与 $\overset{y}{^}$ 之间的差异:

EPE (f) = E (Y - F (X))^{2} = \int (y - f (x))^{2} P r (d x, d y)

Since P r (X, Y) = P r (Y ∣ X) P r (X), EPE can also be written as

EPE (f) = E_{X} E_{Y ∣ X} ([Y - f (X)]^{2} ∣ X)

所以说，可以通过找EPE的最小值来进行寻找合适的参数，如：

f (x) = arg c min E_{Y ∣ X} ([Y - c]^{2} ∣ X = x)

回归方程: $f (x) = E (Y ∣ X = x)$

Linear Regression

$f (x) \approx x^{T} β$ ，是一个有模型预测的回归模型。这里我们假设了线性模型。

由于有了对回归模型的假设，我们对样本量的需求比kNN算法小了很多。这里的EPE为：

EPE (f) = E (Y - f (X))^{2} = E ((Y - X^{T} β)^{T} (Y - X^{T} β)) = E (∣∣ Y - X^{T} β ∣ ∣_{2}^{2})

\frac{\partial (( Y - X ^{T} β ) ^{T} ( Y - X ^{T} β ) ) ^{'}}{\partial β} = \frac{\partial ( Y ^{T} Y - β ^{T} X Y - Y ^{T} X ^{T} β + β ^{T} X X ^{T} β ) ^{'}}{\partial β}

= 0 - X Y - Y^{T} X^{T} + (X X^{T} + X^{T} X) β = 0

∴ β = [E (X X^{T})]^{- 1} E (X Y)

而根据残差平方和，

RSS (β) = i = 1 \sum N (y_{i} - x_{i}^{T} β)^{2}

当残差平方和最小的时候，有 $β = (X^{T} X)^{-} 1 X^{T} y$

协方差

Covariance， $Cov (X, Y) = E [(X - E [X])^{T} T (Y - E [Y])] = Va r + B ia s^{2}$ ，是方差加上偏差的平方。

方差 $Var (X) = Cov (X, X)$

kNN

分类输出变量 $G$ 的程序，其值来自 $g$ 。损失函数是一个 $K \times K$ 的矩阵 $L$ ，而 $K = c a r d (g)$

$L (k, l)$ 是错误把 $g_{k}$ 里的内容估计成 $g_{l}$ 中内容所付出的代价。

所以，我们有了一个0-1损失方程： $L (k, l) = 1 - δ_{k l}, δ_{k l} = 1 if and only if k == l$

EPE = E_{X} k = 1 \sum K L [g_{k}, \hat{G} (X)] P r (g_{k} ∣ X)

\hat{G} (X) = a r g mi n_{g \in G} k = 1 \sum K L (g_{k}, g) P r (g_{k} ∣ X = x)

Or simply, \hat{G} (x) = a r g ma x_{g \in G} P r (g ∣ X = x)

Cross Validation

交叉验证

把一个数据集分成 $n$ 份，验证 $m$ 个 $k$ 的取值，那么对于每一次循环，把 $n$ 份中的一份座位测试集，循环 $m$ 次，计算 $k$

循环 $n$ 次之后去计算每一个 $k$ 的取值的平均准确度，找到准确度最大的一个

高维中的本地模型（local model）

随着维度的上升，本地模型逐渐演化成广域模型（global model）
- 如：在一个边长为1的p维的立方体中，取一个覆盖了 $r %$ 的数据（体积），那么设小立方体的边长为 $e_{p} (r) = r^{\frac{1}{p}}$ .
- 那么有： $e_{10} (0.01) = 0.63, e_{10} (0.1) = 0.80, e_{1} (0, 01) = 0.01, e_{2} (0.01) = 0.1$
高维空间中，数据去向样本空间的边缘。
- 假设有N个数据点，p维的空间，假设数据空间是一个单位球体（ $r = 1$ ）。那么中位距离（所有数据到样本空间中心点的距离的中位数）是 $d (p, N) = (1 - \frac{1}{2}^{\frac{1}{N}})^{\frac{1}{p}}$ 。那么就有 $d (10, 500) \approx 0.52$

Tip

对于一个p维的球体样本空间，有以下推论：
$i = 1 \prod n P r (∣∣ x_{i} ∣∣ > r) = \frac{1}{2}$ $P r (∣∣ x_{i} ∣∣ > r) = 1 - P r (∣∣ x_{i} ∣∣ \leq 2) = 1 - V_{p} (r) = 1 - \frac{π ^{\frac{p}{2}}}{Γ ( \frac{p}{2} + 1 )} r^{p} \approx 1 - r^{p} (当 p 极大时)$ $(1 - r^{p})^{N} = \frac{1}{2}$
可以得出中位距离的公式

函数拟合

数据集： $(x_{i}, y_{i})$ 的数值对，在 $(p + 1)$ 维中。有以下函数(ground-truth): $y_{i} = f (x_{i}) + ε_{i}, f : R^{p} \to R$
目标：找到一个对于 $f (x)$ 的好的逼近。给定训练样本集 $τ$

text{给定参数集合 $θ$ ，那么对于线性模型，有}f(x)=x^T\beta$$

而 θ = β ，其中这两个可以是 scalar ，也可以是 vector 或 matrix

f_{θ} (x) = k = 1 \sum K h_{k} (x) θ_{k}

h_{k} ：一个函数，可以将非线性的输入转换成线性的输入

如：有 $x_{1}, x_{2}$ 两个轴，组成的样本集的分界线是一个圆。那么可以令

h_{k} (x_{1}, x_{2}) = x_{1}^{2} + x_{2}^{2} 转换成一个线性的问题

$h_{k}$ 的例子:

h_{k} (x) = x_{1} x_{2}^{2} (Polynomial expansion), h_{k} (x) = cos (x_{1}) (Trigonometric expansion)

h_{k} (x) = \frac{1}{1 + exp ( - x ^{T} β _{k} )} (Sigmoid expansion)

然后利用 $RSS$ 进行拟合 $θ$ ：

RSS (θ) = i = 1 \sum N (y_{i} - f_{θ} (x_{i}))^{2}

最大似然估计 MLE

使用 $P r_{θ} (y)$ （预测值）去估计 $P r (y)$ （真实值） Lamma：KL散度：

K L (p ∣∣ q) = \int p (x) lo g \frac{p ( x )}{q ( x )} d x = \int p (x) lo g p (x) d x - \int p (x) lo g q (x) d x = - H [x] - E [lo g q (x)]

推导MLE：

θ min K L (p (y) ∣∣ p_{θ} (y)) = \int p (y) lo g p (y) d y - \int p (y) lo g p_{θ} (y) d y = C - \int p (y) lo g p_{θ} (y) d y

由于 $\int p (y) lo g p (y) d y$ 是对 $y$ 的焓，所以是一个常数。考虑Monte Carlo方法抽样：

E [x] = \int x p (x) d x = \frac{1}{K} k = 1 \sum K x_{k}, x_{k} \sim p (x)

即在 $p (x)$ 中抽样。当 $K$ 足够大，可以认为与期望是相等的。那么有：

θ min K L (p (y) ∣∣ p_{θ} (y)) = C - \frac{1}{N} i = 1 \sum N lo g p_{θ} (y_{i})

去掉常数（因为是对 $θ$ 求最小），有：

θ max l (θ) = i = 1 \sum N lo g P r_{θ} (y_{i})

注意求最小，但是有个负号，所以是对这个求最大。

对于高斯分布的概率密度函数求MLE:

l (θ) = i = 1 \sum N lo g P r_{θ} (X) = - \frac{N}{2} lo g (2 π) - N lo g σ - \frac{1}{2 σ ^{2}} i = 1 \sum N (y_{i} - f_{θ} (x_{i}))^{2}

求最大值那么对 $l$ 求偏导，因为 $θ$ 包含了两个参数， $μ, σ$

对训练数据集 $τ$ ，那么

l (θ ∣ τ) = i = 1 \sum N lo g P r_{θ} (x_{i}, y_{i}) = i = 1 \sum N lo g P r_{θ} (y_{i} ∣ x_{i}) P r_{θ} (x_{i}) = i = 1 \sum N lo g P r_{θ} (y_{i} ∣ x_{i})

注意这里省去了 $P r_{θ} (x_{i})$ 是因为这个不是我们需要估计的，是给定的随机变量 $x$

简单线性估计

最小二乘法

单变量的求解：

\hat{β}_{0}, \hat{β} = argmin_{β_{0}, β} i = 1 \sum N (y_{i} - β_{0} - β x_{i})^{2}

\hat{β} = \frac{\sum _{i = 1}^{N} ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{\sum _{i = 1}^{N} ( x _{i} - x ˉ ) ^{2}}

\hat{β}_{0} = \overset{y}{ˉ} - \hat{β} \overset{x}{ˉ}

但是求解单变量的时候，尽量是从 $β_{0}$ 入手，为了以后求解正则化项作保障。正则化项不能包含 $β_{0}$ ，因为 $β_{0}$ 只是斜率，与自变量没有任何关系，惩罚这个项没有任何意义。

对于多变量， $X = (X_{1}, X_{2}, \dots, X_{p})^{T}$

f (X) = β_{0} + j = 1 \sum p X_{j} β_{j}

RSS (β) = i = 1 \sum N (y_{i} - f (x_{i}))^{2} = i = 1 \sum N (y_{i} - β_{0} - j = 1 \sum p x_{ij} β_{j}) = (y - X β)^{T} (y - X β)

\frac{\partial RSS ( β )}{\partial β} = - 2 X^{T} (y - X β) = 0

\Rightarrow \hat{β} = (X^{T} X)^{- 1} X^{T} y

需要满足： $X^{T} X$ 是可逆的。

\overset{y}{^} = X \hat{β} = X (X^{T} X)^{- 1} X^{T} y = Hy

其中， $H$ 是一个投影矩阵。相当于是从 $x$ 空间向 $y$ 空间的投影

对于多输出：

Y_{k} = β_{o k} + j = 1 \sum p X_{j} β_{jk} + ε_{k} = f_{k} (X) + ε_{k}

Y = XB + E

RSS (B) = k = 1 \sum K i = 1 \sum N (y_{ik} - f_{k} (x_{i}))^{2} = ∣∣ Y - XB ∣ ∣_{F}^{2}

∣∣ A ∣ ∣_{F}^{2} = t r (A^{T} A) = ij \sum a_{ij}^{2}

RSS (B) = t r ((Y - XB)^{T} (Y - XB)) = t r (Y^{T} Y) - 2 t r (B^{T} X^{T} Y) + t r (B^{T} X^{T} XB)

\frac{\partial RSS ( B )}{\partial B} = - 2 X^{T} Y + 2 X^{T} XB = 0 \Rightarrow \hat{B} = (X^{T} X)^{- 1} X^{T} Y

$t r (A)$ 是迹，是对角线上的元素相加

关于奇异性

假设有一个矩阵， $p$ 维，训练样本集有 $N$ 个数据 $\Rightarrow$ 输入样本集 $X$ 是一个 $N \times p$ 的矩阵

要想 $X^{T} X$ 是一个非奇异的矩阵，需要满足 $r ank (X) = p$ ，即满秩的矩阵

矩阵的描述	秩	奇异性
胖	$r ank (X) \leq N < p$	一定是奇异矩阵
方阵	$r ank (X) \leq N, p$ ， $N = p$	需要有 $r ank (X) = p = N$
瘦	$r ank (X) \leq p < N$	需要有 $r ank (X) = p$

非满秩：有多余信息，维度高，样本少 $\Rightarrow$ 解决方案：1. 特征选择（降维，去掉某些不必要的特征）2. 正则化（添加一个正则化项使 $\hat{β} = (X^{T} X + λ I)^{- 1} X^{T} y$ ）

$X^{T} X + λ I$ 一定是满秩的： $X^{T} X + λ I = (U V U^{T})^{T} (U V U^{T}) + λ I = U V^{2} U^{T} + λ U U^{T} = U (V^{2} + λ I) U^{T}$ ，因为 $V^{2}$ 是一个每个项都是大于等于0的对角矩阵，那么加上一个大于0的单位矩阵一定是一个满秩的对角矩阵

岭回归 Ridge Regression

\hat{β}^{ridge} = ar g β min {i = 1 \sum N (y_{i} - β_{0} - j = 1 \sum p x_{ij} β_{j})^{2} + λ j = 1 \sum p β_{j}^{2}}

注意正则化不包含 $β_{0}$ 截距

另一种表示方式：

\hat{β}^{ridge} = ar g β min ∣∣ Y - β_{0} - Xβ ∣ ∣_{2}^{2} ， subject to ∣∣ β ∣ ∣_{2}^{2} \leq t

PRSS (λ, β) = (y - Xβ)^{T} (y - Xβ) + λ β^{T} β

\frac{\partial PRSS ( λ , β )}{\partial β} = - 2 X^{T} y + 2 (X^{T} X + λ I) β = 0 \Rightarrow \hat{β}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

与最小二乘法对比：

X β^{ls} = (X^{T} X)^{- 1} X^{T} y = j = 1 \sum p u_{j} u_{j}^{T} y

X β^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y = j = 1 \sum p \frac{d _{j}^{2}}{d _{j}^{2} + λ} u_{j}^{T} y

其中， $X^{T} X$ 进行SVD分解之后的结果是 $U D U^{T}$ ， $u$ 属于 $U$ ， $d$ 属于 $D$

有效自由度（表示复杂度的一种方法）：

df (λ) = j = 1 \sum p \frac{d _{j}^{2}}{d _{j}^{2} + λ} u_{j}^{T} y

假设训练样本集的输入是一个 $p$ 维的：

λ \to 0 \Rightarrow df (λ) \to p ，相当于没有正则化

λ \to \infty \Rightarrow df (λ) \to 0 ，正则化惩罚过强，不在关心 Loss 函数，导致原来的模型极端简单

Lasso回归

是一种稀疏的回归方式

我们希望对 $β_{i}$ 不为零的项进行惩罚，因为只有 $β_{i} \neq = 0$ 才会导致模型变得复杂。所以需要使用“零范数”用作惩罚项。（岭回归用的是二范数座位惩罚项）

使用零范数的时候称为“最佳子集回归”，best subset regression。

但是零范数是一个非凸曲线，无法使用求导来进行分析最小值。包括所有 $p$ 范数( $0 < p < 1$ )都是非凸的。那么距离零范数最近的一个最小的凸曲线的范数是一范数。（注意，在一范数的顶点位置还是不能求导，因为不连续）。所以Lasso回归使用了一范数

\hat{β}^{lasso} = ar g β min {\frac{1}{2} i = 1 \sum N (y_{i} - β_{0} - j = 1 \sum p x_{ij} β ∣ j)^{2} + λ ∣ β_{j} ∣}

= ar g β min {\frac{1}{2} ∣∣ Y - β - Xβ ∣ ∣_{2}^{2} + λ ∣∣ β ∣ ∣_{1}}

与最小二乘法对比

\hat{β}^{ridge} = \frac{1}{1 + λ} \hat{β}^{ls}

\hat{β}_{j}^{lasso} = s i g n (\hat{β}_{j}^{ls}) (∣ \hat{β}_{j}^{ls} ∣ - λ)_{+}

MAP

\hat{β}^{M A P} = ar g β max P r (y ∣ X, β) P r (β)

P r (β) 是由岭回归或者 Lasso 回归计算的， P r (y ∣ X, β) 是最小二乘法计算的

r i d g e : P r (β) = N (β ∣0, \frac{1}{λ} I_{p}) ，高斯分布

l a sso : P r (β) = \frac{λ}{2} e^{- λ ∣∣ β ∣ ∣_{1}}

简单分类器

线性分类器

利用不同类别赋值不同，把每个类别赋值作为输出( $y_{i}$ )，进行线性回归，找到 $y_{i} = x^{T} \hat{β} = 0.5$ 的那条线

拟合函数需要满足

\hat{f} (x) = \hat{B}^{T} (1 x) = \hat{f}_{1} (x) \hat{f}_{2} (x) ⋮ \hat{f}_{K} (x) \in R^{K}

对x的分类： $\hat{G} (X) = ar g max_{k \in g} \hat{f}_{k} (x)$ ，相当于是寻找可能性最大的那个类别 $k$ ，或者等效写作：

\hat{G} (x) = ar g k \in g min ∣∣ \hat{f} (x) - t_{k} ∣ ∣_{2}^{2} ， t_{k} 是类别标号，即寻找相关性最强，类别最近的一个

\hat{G} (x) = ar g k \in g max P r (G = k ∣ X = x) ，后验概率

如果是简单的线性回归去拟合，可能会导致掩盖掉某些类。具体情况查看L5-p14

所以需要把线性回归拓展到非线性空间：加上一些二次项或者更高次的项然后再进行回归，最后把回归的结果映射回线性空间，得到一个非线性的分界线

LDA

使用基于贝叶斯的后验概率

P r (G = k ∣ X = x) = \frac{P r ( X = x ∣ G = k ) P r ( G = k )}{P r ( X = x )} = \frac{P r ( X = x ∣ G = k ) P r ( G = k )}{\sum _{l = 1}^{K} P r ( X = x ∣ G = l ) P r ( G = l )}

f_{k} (x) = P r (X = x ∣ G = k)

π_{k} = P r (G = k)

类别分布 = Π_{k = 1}^{K} π_{k}^{1_{x = k}}

1_{x = k} = {10 x = k x \neq = k

边界（概率相等的地方）：

{x ∣ P r (G = k ∣ X = x) = P r (G = l ∣ X = x)}

\Rightarrow \frac{Pr ( G = k ∣ X = x )}{P r ( G = l ∣ X = x )} = 1 \Rightarrow ln \frac{P r ( X = x ∣ G = k ) P r ( G = k )}{P r ( X = x ∣ G = l ) P r ( G = l )} = 0

\Rightarrow LDA ： β^{T} X + β_{0} = 0

P r (G = k ∣ X = x) = \frac{f _{k} ( x ) π _{k}}{\sum _{l = 1}^{K} f _{l} ( x ) π _{l}}

对于高维高斯分布的LDA:

f_{k} (x) = \frac{1}{( 2 π ) ^{\frac{p}{2}} ∣ Σ _{k} ∣ ^{\frac{1}{2}}} exp (- \frac{1}{2} (x - μ_{k})^{T} Σ_{k}^{- 1} (x - μ_{k}))

我们做一个假设：对于所有的 $Σ_{k} = Σ$ ，即任意的 $Σ_{k}$ 都相等。这里的 $Σ_{k}$ 是 $k$ 分类的方差（ $σ_{k}^{2}$ ）

Logit ： ln \frac{P r ( G = k ∣ X = x )}{P r ( G = l ∣ X = x )} = ln \frac{f _{k} ( x )}{f _{l} ( x )} + ln \frac{π _{k}}{π _{l}}

= ln \frac{π _{k}}{π _{l}} - \frac{1}{2} (μ_{k} + μ_{l})^{T} Σ^{- 1} (μ_{k} - μ_{l}) + x^{T} Σ^{- 1} (μ_{k} - μ_{l})

\Rightarrow \overset{π}{^}_{k} = \frac{N _{k}}{N}, \overset{μ}{^}_{k} = g_{i} = k \sum \frac{x _{i}}{N _{k}}, \hat{Σ} = k = 1 \sum K g_{i} = k \sum \frac{( x _{i} - μ ^ _{k} ) ( x _{i} - μ ^ _{k} ) ^{T}}{N - K}

	$X_{1}$	$X_{2}$	G
$x_{1}^{T}$	0.2	0.3	1
$x_{2}^{T}$	0.8	0.7	3
$x_{3}^{T}$	0.4	0.6	2
$x_{4}^{T}$	0.6	0.4	2
$x_{5}^{T}$	0.3	0.2	1
$x_{6}^{T}$	0.7	0.8	3

\overset{π}{^}_{1} = \overset{π}{^}_{2} = \overset{π}{^}_{3} = \frac{1}{3}

\overset{μ}{^}_{1} = \frac{1}{2} (x_{1} + x_{5}) = \frac{1}{2} (0.2 0.3) + \frac{1}{2} (0.3 0.2) = (0.25 0.25)

\overset{μ}{^}_{2} = \frac{1}{2} (x_{3} + x_{4}) = (0.5 0.5)

\overset{μ}{^}_{3} = \frac{1}{2} (x_{2} + x_{6}) = (0.75 0.75)

\hat{Σ} = \frac{( 0.005 - 0.005 - 0.005 0.005 ) + ( 0.02 - 0.02 - 0.02 0.02 ) + ( 0.005 - 0.005 - 0.005 0.005 )}{6 - 3} = (0.01 - 0.01 - 0.01 0.01)

ln \frac{P r ( G = 1∣ X = x )}{P r ( G = 2∣ X = x )} = ln \frac{π ^ _{1}}{π ^ _{2}} - \frac{1}{2} (\overset{μ}{^}_{1} + \overset{μ}{^}_{2})^{T} \hat{Σ}_{λ}^{- 1} (μ_{1} - μ_{2}) + x^{T} \hat{Σ}_{λ}^{- 1} (\overset{μ}{^}_{1} - \overset{μ}{^}_{2})

= 0.1875 - (x_{1}, x_{2}) (0.25 0.25) = 0

\Rightarrow 边界为 {(x_{1}, x_{2}) ∣ x_{1} + x_{2} = 0.75} ，其中 \hat{Σ}_{λ} = \hat{Σ} + λ I, λ = 1

定义线性判别函数为 $δ_{k} (x) = x^{T} Σ^{- 1} μ_{k} - \frac{1}{2} μ_{k}^{T} Σ^{- 1} μ_{k} + ln π_{k}$

在 $x$ 点，哪一个类的 $δ_{k} (x)$ 大，这个点就是哪一类的。当 $δ_{k} (x) = δ_{l} (x)$ 的时候，说明这个点事 $l$ 类和 $k$ 类的边界线上

QDA

相对LDA，少了一个假设： $Σ_{k} = Σ, \forall k \in G$

所以特征表达更好，但是计算的特别多。

LDA计算 $K \times p + p \times p$ 个参数，只需要估计 $π, μ, Σ$

QDA计算 $K \times p + K \times p \times p$ 个参数，需要估计 $π, μ, Σ_{k} \forall k \in G$

判别式： $δ_{k} (x) = - \frac{1}{2} ln ∣ Σ_{k} ∣ - \frac{1}{2} (x - μ_{k})^{T} Σ_{K}^{- 1} (x - μ_{k}) + ln π_{k}$

LDA 正则化与降维

RLDA 正则化LDA

\hat{Σ} (γ) = γ \hat{Σ} + (1 - γ) diag (\hat{Σ}), γ \in [0, 1]

Diagonal LDA 对角LDA

\hat{Σ} = d ia g (\hat{Σ})

低方差（高复杂度），高偏差				高方差，低偏差（高准确度）
Diag LDA	RLDA	LDA	RQDA	QDA
$d ia g (\hat{Σ})$	$\hat{Σ} (γ)$	$\hat{Σ}$	$\hat{Σ}_{k} (α)$	$\hat{Σ}_{k}$

Fisher Formulation of Discriminant Analysis

lo g \frac{P r ( G = k ∣ X = x )}{P r ( G = l ∣ X = x )} = δ_{k} (x) - δ_{l} (x)

δ_{k} (x) \propto lo g P r (G = k ∣ X = x)

lo g P r (G = k ∣ X = x) = - \frac{1}{2} (x - \overset{μ}{^}_{k})^{T} \hat{Σ}^{- 1} (x - \overset{μ}{^}_{k}) + ln \overset{π}{^}_{k} + C

= - \frac{1}{2} ∣∣ x^{*} - \overset{μ}{^}_{k}^{*} ∣ ∣^{2} + ln \overset{π}{^}_{k} + C

\hat{G} (x) = ar g k \in g max δ_{k} (x) = ar g k \in g min \frac{1}{2} ∣∣ x^{*} - \overset{μ}{^}_{k}^{*} ∣ ∣^{2} - ln \overset{π}{^}_{k}

其中， $x^{*} = \hat{Σ}^{- \frac{1}{2}} x$ ， $\overset{μ}{^}_{k}^{*} = \hat{Σ}^{- \frac{1}{2}} \overset{μ}{^}_{k}$

目的：白化（球化），使协方差矩阵变成单位矩阵。目的：降低两个类别之间的重叠区域。

高级分类器

Boosting

通过弱分类器投票决定一个强分类器 Input:

S = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m})}

$D_{t}$ 是 ${x_{1}, \dots, x_{m}}$ 这些点的权重， $α$ 是每一个分类器在投票里面所占权重 Run $A$ on $D_{t}$ producing

h_{t} : X \to {- 1, 1}

ϵ_{t} = P_{x_{i} \sim D_{t}} (h_{t} (x_{i}) \neq = y_{i}) = \frac{1}{M} n = 1 \sum M 1 [h_{t} (x_{i}) \neq = y_{i}] ，即错误分类的概率

H_{final} (x) = sign (t \sum α_{t} h_{t} (x))

计算流程：

初始化： D_{1} (i) = \frac{1}{m}

ϵ_{t} = \frac{1}{m} n = 1 \sum m 1 [h_{t} (x_{i}) \neq = y_{i}]

α_{t} = \frac{1}{2} ln (\frac{1 - ϵ _{t}}{ϵ _{t}})

Z_{t} = 2 ϵ_{t} (1 - ϵ_{t})

D_{t + 1} (i) = {\frac{D _{t} ( i )}{Z _{t}} e^{- α_{t}} \frac{D _{t} ( i )}{Z _{t}} e^{α_{t}} 分类正确，减少该点权重，更注意分类错误的点 分类错误，提高权重

训练次数为 $T = O (\frac{1}{γ ^{2}} ln \frac{1}{ϵ})$

SVM

间隔 $γ = min \frac{y ω ^{* T} x}{∣∣ ω ^{*} ∣∣}$

求解：应用拉格朗日乘数法：

L (w, b, α) = \frac{1}{2} ∣∣ w ∣ ∣^{2} + \sum α_{i} (1 - y_{i} (w \cdot x_{i} - b))

{\frac{\partial L}{\partial w} = 0 \frac{\partial L}{\partial b} = 0 \Rightarrow w = \sum α_{i} y_{i} x_{i} 0 = \sum α_{i} y_{i} \Rightarrow L (w, b, α) = i = 1 \sum m α_{i} - \frac{1}{2} i = 1 \sum m j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i}^{T} \cdot x_{j})

上面的 $x_{i}^{T} \cdot x_{j}$ 可以使用核函数进行升维

\Rightarrow ⎩ ⎨ ⎧ α_{i} \geq 0 y_{i} f (x_{i}) - 1 \geq 0 α_{i} (y_{i} f (x_{i}) - 1) = 0

然后使用SMO (Sequential Minimal Optimization)求解

SMO相关简介

详情参见KKT Condition

半监督SVM

根据有标签的点进行分类，计算得出一个模型，然后根据这个模型对无标签的样本点分类，然后对分好类的样本点再一次计算模型，重复迭代。

聚类

假设 $P (X_{1}, \dots . X_{N})$ 是多分布的混合模型，处于一个 $n$ 维的变量空间，使用离散的随机变量 $Z$ 指示是哪一个分布正在被使用。所以 $P (X_{1} \dots X_{N}) = \sum_{i} P (Z = i) P (X_{1} \dots X_{N} ∣ Z)$ ，其中 $Z$ 是一个隐变量， $P (Z = i)$ 属于某个高斯分布的先验。贝叶斯图像如图：

graph TB
Z-->X1
Z-->X2
Z-->...
Z-->XN

假设每个数据点都是 $n$ 维的数据，即 $X = ⟨ X_{1}, \dots, X_{n} ⟩$ ，假设 $X_{i}$ 之间相互独立（高斯分布的朴素贝叶斯假设）
$P (X ∣ Z = j) = i \prod N (x_{i} ∣ μ_{ij}, σ_{ij})$
根据先验的Gaussian分布 $P (Z = i)$ 进行随机采样 $i$ （假设只有两个类，并且 $\forall i, j, σ_{ji} = σ$ ，假设认为所有的方差相同）
$P (X) = j = 1 \sum 2 P (Z = j ∣ π) i \prod N (x_{i} ∣ μ_{ij}, σ)$
根据 $N (μ_{i}, Σ_{i})$ 随机生成数据点 $⟨ x_{1}, \dots, x_{n} ⟩$

假设已经知道了 $σ$ ，还需要知道 $π_{1}, \dots, π_{k}$ 和 $μ_{1 i}, \dots, μ_{K i}$

观测值： $X = ⟨ X_{1}, \dots, X_{n} ⟩$ ，隐变量： $Z$

使用EM算法进行估计：

Define $Q (θ^{'} ∣ θ) = E_{Z ∣ X, θ} [lo g P (X, Z ∣ θ^{'})], θ = ⟨ π, μ_{ji} ⟩$

E-step:

P (z (n) = k ∣ x (n), θ) = \frac{\prod _{i} N ( x _{i} ( n ) ∣ z ( n ) = k , θ ) ( π ^{k} ( 1 - π ) ^{1 - k} )}{\sum _{j = 0}^{1} [ \prod _{i} N ( x _{i} ( n ) ∣ μ _{ji} , σ )] ( π ^{j} ( 1 - π ) ^{1 - j} )}

M-step:

π \leftarrow \frac{1}{N} n = 1 \sum N E [z (n)]

μ_{ji} \leftarrow \frac{\sum _{n = 1}^{N} P ( z ( n ) = j ∣ x ( n ) , θ ) x _{i} ( n )}{\sum _{n = 1}^{N} P ( z ( n ) = j ∣ x ( n ) , θ )}

使用贝叶斯网络进行优化

最小化 $KL (P ∣∣ T) = - \sum_{i} I (X_{i}, P a (X_{i})) + \sum_{i} H (X_{i}) - H (X_{1} \dots X_{n})$

其中，边缘概率密度分布 $I (A, B) = \sum_{a} \sum_{b} P (a, b) lo g \frac{P ( a , b )}{P ( a ) P ( b )}$ ， $P a (X_{i})$ 指的是在图中 $X_{i}$ 的直接父节点。 $H$ 是焓。

给定 $I$ ，然后根据最大化 $I$ 的思路去建树，根据这个树进行优化

GMM

协同训练

假设有一个样本多个特征，其中一个特征的分类置信度很高，那么认为这个样本其他的特征都是这一个分类的，然后根据这个分类进行再训练迭代

缺点：容易把错误放大

假设只有两个视角（两个类别的特征，训练分别是 $h_{1}$ 和 $h_{2}$ ）

ar g min_{h_{1}, h_{2}} l = 1 \sum 2 i = 1 \sum m_{l} l (h_{l} (x_{i}), y_{i}) + C i = 1 \sum m_{u} agreement (h_{1} (x_{i}), h_{2} (x_{i}))

其中 $l (h_{l} (x_{i}), y_{i})$ 是损失函数，一般是距离或者0/1损失， $agreement (h_{1} (x_{i}), h_{2} (x_{i}))$ 是 $h_{1}$ 和 $h_{2}$ 之间的差距，可以自定义

Similarity Based Regularity

找到距离最近的几个点，然后把自己的类别传递过去

如：根据相似度建图，取相似度小于等于 $ε$ 的之间连一条边，然后根据已经有的样本标签传递

相似度可以使用Gaussian Kernel来计算： $K (x, z) = exp [- \frac{∣∣ x _{i} - x _{j} ∣ ∣ ^{2}}{2 σ ^{2}}]$ ，其中 $x_{i}$ 和 $x_{j}$ 是两个样本点的特征向量

可以把相似度组成一个矩阵（对称的）： $w_{ij} = exp [- \frac{∣∣ x _{i} - x _{j} ∣ ∣ ^{2}}{2 σ ^{2}}] \Rightarrow W$ ，然后只需要进行最小化目标函数：

f min e = (i, j) \sum w_{e} ∣∣ f_{i} - f_{j} ∣ ∣^{2} = 2 f^{T} (D - W) f

其中， $f$ 是标签组成的一个矩阵，D是W的对角矩阵，现在令 $L = D - W$ 有 $min_{f} f^{T} L f$ 。这种方法叫做Spectral Clustering

然后因为有一些标签是已知信息，所以要加上Loss：

f min ij \sum w_{ij} ∣∣ f_{i} - f_{j} ∣ ∣^{2} - C i = 1 \sum m_{e} ∣∣ y_{i} - f_{i} ∣ ∣^{2}

令 $f = βX$ ,

\Rightarrow f^{T} L f = β^{T} X^{T} L Xβ \Rightarrow min β^{T} X^{T} L Xβ + λ ∣∣ y - Xβ ∣ ∣_{2}^{2} + α ∣∣ β ∣ ∣^{2}

最终的类似一个岭回归，当时还存在local的信息（ $β^{T} X^{T} L Xβ$ ）

GMM

Generative Model中的高斯混合模型（Gaussian Mixture Model）

变量： $θ = {π_{i}, μ_{i}, Σ_{i}}_{i = 1}^{K}$ ，其中 $π_{i}$ 是分类的先验概率， $μ_{i}$ 是高斯的均值， $Σ_{i}$ 是高斯的协方差矩阵

联合概率密度分布： $p (x, y ∣ θ) = \sum_{i = 1}^{K} π_{i} N (x; μ_{i}, Σ_{i})$

分类： $p (y ∣ x, θ) = \frac{p ( x , y ∣ θ )}{\sum _{i = 1}^{K} p ( x , y _{i} ∣ θ )}$

kernel函数

找到内积 $X X^{T}$ 才能使用（ $d \times n$ 的矩阵，至少结果需要是一个 $d \times d$ 的矩阵）

常用kernel：

Linear: K (x, z) = x \cdot z

Polynomial: K (x, z) = (x \cdot z)^{d} or K (x, z) = (x \cdot z + 1)^{d}

Gaussian: K (x, z) = exp [- \frac{∣∣ x - z ∣ ∣ ^{2}}{2 σ ^{2}}] ， σ 是超参数

Laplace: K (x, z) = exp [- \frac{∣∣ x - z ∣∣}{2 σ ^{2}}]

直接对内积使用核函数，可以将原本是时间复杂度极大的矩阵乘法降低为 $O (n)$

核函数可以相加可以相乘，所以可以根据这点直接构建一个新的核函数（称为多核学习）

Knowledge Base

Explorer

Fit

Fit

简单拟合

最小二乘法: Least Square

计算

残差

最近邻项: Nearest Neighbor

条件概率公式展开

Linear Regression

协方差

kNN

Cross Validation

高维中的本地模型（local model）

函数拟合

最大似然估计 MLE

简单线性估计

最小二乘法

关于奇异性

岭回归 Ridge Regression

Lasso回归

与最小二乘法对比

MAP

简单分类器

线性分类器

LDA

QDA

LDA 正则化与降维

RLDA 正则化LDA

Diagonal LDA 对角LDA

Fisher Formulation of Discriminant Analysis

高级分类器

Boosting

SVM

半监督SVM

聚类

使用贝叶斯网络进行优化

GMM

协同训练

Similarity Based Regularity

GMM

kernel函数

Graph View

Table of Contents

Backlinks