# 基本概念与分类方法
# 基于似然的分类器
这类方法基于似然比进行决策,其核心是假设总体的概率分布已知。
# 基于错误分类的预期成本 (ECM)
该方法的目标是最小化总的错误分类预期成本。
- 定义: ECM=c(2∣1)P(X∈R2,X∈π1)+c(1∣2)P(X∈R1,X∈π2)=c(2∣1)P(2∣1)p1+c(1∣2)P(1∣2)p2
- 其中,pi 为先验概率,c(k∣i) 为将属于 πi 的样本错误分类到 πk 的成本。
- 优化目标: argminECM
- 判别规则:
- 分类到 R1: p1f1(x)c(2∣1)≥p2f2(x)c(1∣2)
- 分类到 R2: p1f1(x)c(2∣1)<p2f2(x)c(1∣2)
# 基于错误分类的总概率 (TPM)
该方法在假设成本相等的情况下,旨在最小化错误分类的总概率。
- 定义: TPM=P(2∣1)p1+P(1∣2)p2
- 优化目标: argminTPM
- 判别规则:
- 分类到 R1: p1f1(x)≥p2f2(x)
- 分类到 R2: p1f1(x)<p2f2(x)
# 基于后验概率
该方法根据后验概率将样本分配给概率最大的类别。
- 后验概率表达式: P(X∈π1∣X=x0)=p1f1(x0)+p2f2(x0)p1f1(x0)
# 判别分析的具体模型
# 多元正态分布二分类
# 同方差线性判别分析 (LDA)
LDA 是一种针对多元正态分布且同方差情况下的判别分析方法。
- 假设: Σ1=Σ2
- 最小化 ECM 判别规则:
- 分类到 R1: (μ1−μ2)TΣ−1x−21(μ1−μ2)TΣ−1(μ1+μ2)≥lnc(2∣1)p1c(1∣2)p2
- 样本估计:
- 使用样本均值 xˉ 和合并协方差矩阵 Spooled 来代替总体参数:
- 分类到 R1: (xˉ1−xˉ2)TSpooled−1x−21(xˉ1−xˉ2)TSpooled−1(xˉ1+xˉ2)≥lnc(2∣1)p1c(1∣2)p2
- 与 Fisher LDA 的关系: 在无成本和先验概率(即 c(1∣2)=c(2∣1),p1=p2)的情况下,此方法等同于 Fisher LDA。
# 异方差二次判别分析 (QDA)
QDA 适用于多元正态分布但异方差的情况。
- 假设: 多元高斯分布
- 最小化 ECM 判别规则:
- 分类到 R1: −21xT(Σ1−1−Σ2−1)x+(μ1TΣ1−1−μ2TΣ2−1)x−k≥lnc(2∣1)p1c(1∣2)p2
- 其中 k=21ln(∣Σ2∣∣Σ1∣)+21(μ1′Σ1−1μ1−μ2′Σ2−1μ2)
# Fisher 线性判别分析 (LDA)
Fisher LDA 是一个投影方法,旨在找到一个最优的投影方向,使得投影后不同类别的数据尽可能分开,而同类别的数据尽可能紧密。
- 假设: Σ1=Σ2
- 投影表达式: X=aTY
- 优化目标: 最大化投影后不同类别均值之差的平方与样本方差的比值。
- argmaxaD2=sy2(yˉ1−yˉ2)2
- 其中 sy2=spooled2=n1+n2−2∑i=1n1(y1i−yˉ1)2+∑i=1n2(y2i−yˉ2)2
- 计算方式:
- 投影方向 a^ 的解为 a^∝(xˉ1−xˉ2)TSpooled−1
- 投影后样本的表达式: y^=a^Tx∝(xˉ1−xˉ2)TSpooled−1x
- 最大判别度量: Dmax2=(xˉ1−xˉ2)TSpooled−1(xˉ1−xˉ2)
- 合并协方差矩阵: Spooled=n1+n2−2∑i=1n1(x1i−xˉ1)(x1i−xˉ1)T+∑i=1n2(x2i−xˉ2)(x2i−xˉ2)T
- 决策边界: 判别界限为 2yˉ1+yˉ2
# g 分类器 (多类别 LDA)
该方法将二分类 LDA 扩展到多于两个类别的情况 (g>2),其核心思想是找到最优的投影方向来最大化类别间的离散度。
- 假设: 各类别同方差。
- 优化目标:
- 最小化类内离散度同时最大化类间离散度。
- argmaxaa′Waa′Ba
- 其中 B=∑i=1gni(xˉi−xˉ)(xˉi−xˉ)′ 是类间协方差矩阵;W=∑i=1g∑j=1ni(xij−xˉi)(xij−xˉi)′ 是类内协方差矩阵。
- 计算方式:
- 最优投影方向 a^ 是矩阵 W−1B 的特征向量。
- 我们选取 W−1B 的前 s 个最大的特征值 λ^1,…,λ^s 所对应的特征向量 e^1,…,e^s 作为投影方向,其中 s≤min(g−1,p)。
- 第 k 个判别器为 a^kTx=e^kTx。
- 判别方式:
- 通常使用欧氏距离,将新样本投影后,归类到与其投影点欧氏距离最近的类别均值所对应的类别。
- 欧氏距离表达式: (y−μiY)′(y−μiY)=∑j=1s(yj−μiYj)2
# 分类方式的评估
# 错误分类的总概率 (TPM)
- 定义: TPM=p1∫R2f1(x)dx+p2∫R1f2(x)dx
- 正态分布情况: TPM=Φ(−2Δ)
- 其中 Δ2=σY2=a′Σa=(μ1−μ2)′Σ−1(μ1−μ2) 是马氏距离的平方。
# 明显错误率 (APER)
- 定义: APER 是根据已分类的样本计算的错误率。
- APER=总样本数错误分类的样本数=n1+n2n1M+n2M
- 评估方法: 通常使用 K 折交叉验证来得到更稳健的评估结果。
# 讨论
- 线性不变性: 判别分析的结果通常具有线性不变性,即对数据进行线性变换不影响其分类结果。
- 局限性: 判别分析主要适用于线性分类问题。对于非线性可分的数据,可以通过非线性变换来提升效果。