高斯判别分析

生成式学习算法

目前为止, 我们讨论的学习算法都是在对如下条件概率建模: \[ p(y \mid x) \]

例如, 逻辑回归将 \(p(y \mid x)\) 建模为 \(g(β_0 + β_1 x_1 + \dots + β_p x_p)\), 其中 \(g(z) = 1 / (1 + e^{-z})\) 是逻辑斯蒂克函数.

这种学习算法也被称为判别式学习算法 (Discriminant learning algorithm), 它的特点是直接利用 X 的信息来判别 y, 并且模型中不用描述 X 的分布.

判别式学习算法对于 X 的分布是不可知的 (agnostic). 不论是线性回归还是逻辑回归, 模型中都不用描述 X 的具体分布.

我们接下来讨论另一种类型的学习算法: 生成式学习算法. 和判别式学习算法不同, 生成式学习算法中一般要规定数据 (X,Y) 的生成机制, 模型中需要描述 X 的分布信息.

我们主要在"分类"这个问题背景下讨论生成式学习算法.

二元分类: 判别式分析 vs 生成式分析

考虑如下分类问题: 我们希望根据动物的某些特征来区分大象(\(y=1\))和狗(\(y=0\)).

给定训练集后, 逻辑回归或感知机这样的判别式方法本质上是试图找到一个决策边界来分隔大象和狗.
- 逻辑回归和感知机都是线性分类器, 这类算法确定的决策边界都是线性的
- 我们后面会介绍支撑向量机 (SVM), 这个算法可以得到非线性的决策边界
然后, 为了将一个新动物分类为大象或狗, 算法会检查它落在决策边界的哪一侧, 并据此进行预测.

不同于判别式算法, 生成式算法的基本步骤如下:

首先, 观察训练集中大象对应的数据点: \((x | y = 1)\), 并建立一个描述大象特征的模型
然后, 观察训练集中狗对应的数据点: \((x | y = 0)\), 并建立一个描述狗特征的模型
最后, 为了分类一个新动物样本, 我们可以将新样本分别与大象模型和狗模型进行匹配, 看看新动物更像训练集中的大象还是狗.

具体地, 我们用 \(y\) 表示一个样本是狗(0)还是大象(1), 那么条件概率 \(p(x \mid y=0)\) 描述了狗的特征分布, \(p(x \mid y=1)\) 描述了大象的特征分布.

生成式算法会用某个特定的分布族 (如高斯分布) 对条件概率 \(p(x \mid y)\) 建模.
此外, 生成式算法还需要建模 \(p(y)\), 即类的先验分布. 对于分类问题, 我们一般可以直接用训练集中 y 的经验分布来描述 \(p(y)\).
最后, 用贝叶斯规则推导出给定 \(x\) 时 \(y\) 的后验分布:
\[ p(y \mid x)=\frac{p(x \mid y) p(y)}{p(x)} \]

由于我们的目标是预测 (即预测给定 x 下 y 的值), 我们不用关注上面方程的分母. 因为: \[ \begin{aligned} \arg \max _{y} p(y \mid x) & =\arg \max _{y} \frac{p(x \mid y) p(y)}{p(x)} \\ & =\arg \max _{y} p(x \mid y) p(y) \end{aligned} \]

高斯判别分析 (Gaussian Discriminant Analysis)

我们介绍的第一个生成学习算法是高斯判别分析 (GDA).

是的, 你没看错, 这个算法的正式名称就叫高斯判别分析, 虽然它是生成式算法而非判别式算法...
因为历史原因, 学习理论中很多术语的名字都不准确. 最典型的例子应该是逻辑回归. 在今天的通用术语下, 逻辑回归处理的是分类问题, 而不是回归问题.

高斯判别分析假设每个具体类别下的 x 服从多元正态分布:

\(x \mid y \sim N(μ,Σ)\), 均值向量 \(μ\) 和协方差矩阵 \(Σ\) 可以和 y 相关

我们先简要回顾一下多元正态分布的性质, 再讨论高斯判别分析.

多元正态分布

记 \(x\) 为 \(n\) 维连续随机变量. 最常用, 同时也最简单的高维连续随机变量是多元正态分布, 也称多元高斯分布.

多元正态分布由均值向量 \(\mu \in \mathbb{R}^{n}\) 和协方差矩阵 \(\Sigma \in \mathbb{R}^{n \times n}\) 参数化, 其中\(\Sigma \geq 0\)是对称且半正定的.

若 \(x \sim N(\mu, \Sigma)\), 其密度函数为: \[ p(x ; \mu, \Sigma)=\frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right) \]

在上式中, \(|\Sigma|\) 表示矩阵\(\Sigma\)的行列式.

向量值随机变量 \(Z\) 的协方差为 \(\operatorname{Cov}(Z)=\mathrm{E}[(Z-\mathrm{E}[Z])(Z-\mathrm{E}[Z])^{T}]\).

协方差也可以定义为\(\operatorname{Cov}(Z)=\mathrm{E}\left[Z Z^{T}\right]-(\mathrm{E}[Z])(\mathrm{E}[Z])^{T}\). (你可以自行验证这两个定义的等价性. )

如果\(X \sim N(\mu, \Sigma)\), 那么: \(\operatorname{Cov}(X)=\Sigma\).

以下是(二维)高斯分布的一些示例. 它们的均值都是 (0,0), 区别在于协方差矩阵:

左图: 协方差矩阵 \(\Sigma=I\), 即标准正态分布.
中间的图: \(\Sigma=0.6 I\)
右图: \(\Sigma=2 I\) 的高斯分布.
我们看到, 随着 \(\Sigma\) 变"大", 高斯分布变得更“分散”; 而随着 \(\Sigma\) 变"小", 分布变得更“压缩”.

注: 借助 DeepSeek, 你可以很容易地在 R/Python 中绘制上面的 3D 概率密度图. 你应该动手试一试!

我们另外再看3个例子, 均值仍为零向量, 但协方差矩阵分别为: \[ \Sigma_1=\left[\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right] \quad \Sigma_2=\left[\begin{array}{cc} 1 & 0.5 \\ 0.5 & 1 \end{array}\right] \quad \Sigma_3=\left[\begin{array}{cc} 1 & 0.8 \\ 0.8 & 1 \end{array}\right] \]

\(Σ_2\) 和 \(Σ_3\) 下的分布中, \(x_1\) 和 \(x_2\) 是正相关的. 上面的图中, 随着 \(\Sigma\) 的非对角线元素变大, 密度更加“压缩”到\(45^{\circ}\)线(即\(x_{1}=x_{2}\)).

我们最后再看三个例子. 这回我们固定 \(\Sigma=I\), 只改变均值向量 \(\mu\).

上图使用了\(\Sigma=I\), 均值分别为:
\[ \mu=\left[\begin{array}{l} 1 \\ 0 \end{array}\right] ; \quad \mu=\left[\begin{array}{c} -0.5 \\ 0 \end{array}\right] ; \quad \mu=\left[\begin{array}{c} -1 \\ -1.5 \end{array}\right] \]

高斯判别分析

模型中的分布设定:

y 服从两点分布: Bernoulli(ϕ)
类 y = 0 中的 x 服从多元正态分布 \(N(\mu_0, Σ)\)
类 y = 1 中的 x 服从多元正态分布 \(N(\mu_1, Σ)\)

y, (x|y=0), 和 (x|y=1) 的密度函数如下:

\[ p(y) = \phi^y (1 - \phi)^{1-y} \]

\[ p(x \mid y = 0) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp \left( -\frac{1}{2} (x - \mu_0)^T \Sigma^{-1} (x - \mu_0) \right) \]

\[ p(x \mid y = 1) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp \left( -\frac{1}{2} (x - \mu_1)^T \Sigma^{-1} (x - \mu_1) \right) \]

模型参数: \(\phi\), \(\Sigma\), \(\mu_0\) and \(\mu_1\). 我们使用极大似然法来估计这些参数, 对数似然函数如下: \[ l(\phi, \mu_0, \mu_1, \Sigma) = \log \prod_{i=1}^{m} p(x^{(i)}, y^{(i)}; \phi, \mu_0, \mu_1, \Sigma) \]

\[ = \log \prod_{i=1}^{m} p(x^{(i)} \mid y^{(i)}; \mu_0, \mu_1, \Sigma) p(y^{(i)}; \phi) \]

由于正态分布和两点分布的"分析"性质很好, 我们可以直接得到参数的最大似然估计: \[ \begin{aligned} \phi & =\frac{1}{m} \sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\} \\ \mu_{0} & =\frac{\sum_{i=1}^{m} 1\left\{y^{(i)}=0\right\} x^{(i)}}{\sum_{i=1}^{m} 1\left\{y^{(i)}=0\right\}} \\ \mu_{1} & =\frac{\sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\} x^{(i)}}{\sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\}} \\ \Sigma & =\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu_{y^{(i)}}\right)\left(x^{(i)}-\mu_{y^{(i)}}\right)^{T} \end{aligned} \]

直观理解高斯判别分析算法

从图像上看, 高斯判别分析算法的操作如下:

上图显示了训练集以及拟合到两个类别数据上的高斯分布的等高线. 注意, 这两个高斯分布的等高线形状和方向相同, 因为它们有着相同的协方差矩阵\(Σ\), 仅仅只是均值不同.
图中的直线表示决策边界, 在边界上 \(p(y=1|x)=0.5\). 边界的两侧分别对应预测 y=1 和预测y=0.

GDA 和逻辑回归的相似之处

GDA 属于生成式算法, 而逻辑回归属于判别式算法
但是, 抛开这些"表面上"的区别, GDA 模型与逻辑回归的联系很紧密.

GDA 中, 如果我们将 \(p(y=1 | x; ϕ,μ_0,μ_1,Σ)\) 视为 x 的函数, 可以将它的表达式写成如下形式: \[ p\left(y=1 \mid x ; \phi, \Sigma, \mu_{0}, \mu_{1}\right)=\frac{1}{1+\exp \left(-θ^{T} x\right)} \]

上式中, \(x = (1, x_1, ..., x_p)\), \(θ\) 可看成是 \(ϕ,Σ,μ_0,μ_1\) 的函数.
这个表达式正是逻辑回归用于建模 \(p(y=1|x)\) 的函数形式. 也就是说, GDA 这个生成式算法对应的判别规则和逻辑回归完全相同.

虽然两者的判别规则的函数形式相同, 我们在用极大似然法训练模型时的算法不同. 因此, GDA和逻辑回归在相同数据集上训练时会给出不同的决策边界. 这时, 哪个模型更好呢?

GDA v.s. 逻辑回归

我们已经论证了, 如果 \(p(x|y =0)\), \(p(x|y = 1)\) 是有着相同协方差矩阵 Σ 的多元高斯分布, 那么 \(p(y|x)\) 必然遵循逻辑函数.
反之不成立: 即 \(p(y|x)\) 是逻辑函数并不意味着 \(p(x|y)\) 是多元高斯分布.
也就是说, GDA 对数据的建模假设比逻辑回归更强. 当这些额外假设 (即 \(p(x|y)\) 是多元高斯分布) 近似正确时, GDA 能更好地拟合数据, 预测效果一般也会由于逻辑回归.
"\(p(x|y)\) 是多元高斯分布" 这个假设, 对于非常大的训练集下很合适 (中心极限定理). 数理统计学家们可以证明, 当样本数 \(N\) 趋于无穷时, 没有哪个算法优于GDA. 此时, GDA 肯定比逻辑回归更好.
另一方面, 由于逻辑回归关于数据生成机制的假设更弱, 逻辑回归也会更稳健: 它对错误的建模假设不那么敏感.
- 比如, 如果 \((x|y=0) ∼ Poisson(λ_0)\), \((x|y=1) ∼ Poisson(λ_1)\), 可以证明此时\(p(y|x)\) 仍是逻辑函数. 逻辑回归在这种泊松数据上也会表现良好. 但如果我们在这样的数据上使用GDA (并将高斯分布拟合到这种非高斯数据), GDA 模型的预测性能很可能弱于逻辑回归.

总结: 由于逻辑回归比 GDA 更稳健, 在实践中逻辑回归比GDA更常用. 不过, 如果研究者事先知道数据集中的 \(X\) 近似服从多元高斯分布, 使用 GDA 的预测效果会更好.

一般来说, 判别模型的假设总是少于生成模型. 但是, 我们接下来讨论的朴素贝叶斯算法的性能非常好, 它在文本分类中(曾经)是最流行的算法.

二次判别分析

在我们前面的讨论中, GDA 假设每个类别的 x 的多元正态分布具有相同的协方差矩阵. 在这个假设下, 我们得到的决策边界是线性的. 在有的文献中, 称这种类型的高斯判别分析为线性判别分析 (LDA).

和线性判别分析对应的概念是二次判别分析 (QDA):

与 LDA 类似, QDA 分类器仍然假设每个类别的观测值来自高斯分布, 并将参数估计代入贝叶斯公式进行预测.
不同之处在于, QDA假设每个类别都有自己的协方差矩阵. 也就是说, QDA 假设第 k 类的观测值的形式为 \(X ∼ N(μ_k,Σ_k)\), 其中 \(Σ_k\) 是第 k 类的协方差矩阵.

QDA 分类器将观测值 \(x\) 分配到使得以下判别函数最大的类别, 其中 \(\phi_k\) 为类分布 \(p(y=k)\) 的估计: \[ \begin{aligned} \delta_{k}(x) & =-\frac{1}{2}\left(x-\mu_{k}\right)^{T} \boldsymbol{\Sigma}_{k}^{-1}\left(x-\mu_{k}\right)-\frac{1}{2} \log \left|\boldsymbol{\Sigma}_{k}\right|+\log \phi_{k} \\ & =-\frac{1}{2} x^{T} \boldsymbol{\Sigma}_{k}^{-1} x+x^{T} \boldsymbol{\Sigma}_{k}^{-1} \mu_{k}-\frac{1}{2} \mu_{k}^{T} \boldsymbol{\Sigma}_{k}^{-1} \mu_{k}-\frac{1}{2} \log \left|\boldsymbol{\Sigma}_{k}\right|+\log \phi_{k} \end{aligned} \]

与 LDA 不同, x在判别函数中以二次函数的形式出现, 这也是QDA得名的原因.

LDA v.s. QDA: 偏差-方差权衡

什么时候应该使用 LDA (即假设 K 个类别有着相同的协方差矩阵)?

答案在于偏差---方差权衡:

当有p个预测变量时, 估计一个协方差矩阵需要估计 \(p(p+1)/2\) 个参数.
QDA 为每个类别估计一个单独的协方差矩阵, 总共需要 \(Kp(p+1)/2\) 个参数. 如果你有 50 个预测变量, 你大概有 \(1275 K\) 个参数.
如果假设 K 个类别共享同一个协方差矩阵, LDA 模型在 x 中是线性的, 这意味着只需要估计 \(Kp\) 个线性参数.
因此, LDA 是一个比 QDA 灵活性低得多的分类器, 方差显著降低, 这可能带来更好的预测性能. 但是, 如果 K 个类别共享一个协方差矩阵的假设严重偏离实际, 那么 LDA 可能会由于高偏差的影响预测性能不如 QDA.

粗略地说, 如果训练集中的观测值相对较少 (此时降低方差至关重要), LDA 往往比 QDA 更可靠. 相反, 如果训练集很大 (此时分类器的方差就不是主要问题) 或协方差矩阵相同的假设明显不成立, 则应使用 QDA.