# 基本概念与分类方法

# 基于似然的分类器

这类方法基于似然比进行决策,其核心是假设总体的概率分布已知。

# 基于错误分类的预期成本 (ECM)

该方法的目标是最小化总的错误分类预期成本

  • 定义: ECM=c(21)P(XR2,Xπ1)+c(12)P(XR1,Xπ2)=c(21)P(21)p1+c(12)P(12)p2ECM = c(2|1)P(X \in R_2, X \in \pi_1) + c(1|2)P(X \in R_1, X \in \pi_2) = c(2|1)P(2|1)p_1 + c(1|2)P(1|2)p_2
    • 其中,pip_i 为先验概率,c(ki)c(k|i) 为将属于 πi\pi_i 的样本错误分类到 πk\pi_k 的成本。
  • 优化目标: argminECM\arg\min ECM
  • 判别规则:
    • 分类到 R1R_1: p1f1(x)c(21)p2f2(x)c(12)p_1f_1(x)c(2|1) \ge p_2f_2(x)c(1|2)
    • 分类到 R2R_2: p1f1(x)c(21)<p2f2(x)c(12)p_1f_1(x)c(2|1) < p_2f_2(x)c(1|2)

# 基于错误分类的总概率 (TPM)

该方法在假设成本相等的情况下,旨在最小化错误分类的总概率

  • 定义: TPM=P(21)p1+P(12)p2TPM = P(2|1)p_1 + P(1|2)p_2
  • 优化目标: argminTPM\arg\min TPM
  • 判别规则:
    • 分类到 R1R_1: p1f1(x)p2f2(x)p_1f_1(x) \ge p_2f_2(x)
    • 分类到 R2R_2: p1f1(x)<p2f2(x)p_1f_1(x) < p_2f_2(x)

# 基于后验概率

该方法根据后验概率将样本分配给概率最大的类别。

  • 后验概率表达式: P(Xπ1X=x0)=p1f1(x0)p1f1(x0)+p2f2(x0)P(X \in \pi_1|X=x_0) = \frac{p_1f_1(x_0)}{p_1f_1(x_0) + p_2f_2(x_0)}

# 判别分析的具体模型

# 多元正态分布二分类

# 同方差线性判别分析 (LDA)

LDA 是一种针对多元正态分布同方差情况下的判别分析方法。

  • 假设: Σ1=Σ2\Sigma_1 = \Sigma_2
  • 最小化 ECM 判别规则:
    • 分类到 R1R_1: (μ1μ2)TΣ1x12(μ1μ2)TΣ1(μ1+μ2)lnc(12)p2c(21)p1(\mu_1 - \mu_2)^T\Sigma^{-1}x - \frac{1}{2}(\mu_1 - \mu_2)^T\Sigma^{-1}(\mu_1 + \mu_2) \ge \ln\frac{c(1|2)p_2}{c(2|1)p_1}
  • 样本估计:
    • 使用样本均值 xˉ\bar{x} 和合并协方差矩阵 SpooledS_{pooled} 来代替总体参数:
    • 分类到 R1R_1: (xˉ1xˉ2)TSpooled1x12(xˉ1xˉ2)TSpooled1(xˉ1+xˉ2)lnc(12)p2c(21)p1(\bar{x}_1 - \bar{x}_2)^TS_{pooled}^{-1}x - \frac{1}{2}(\bar{x}_1 - \bar{x}_2)^TS_{pooled}^{-1}(\bar{x}_1 + \bar{x}_2) \ge \ln\frac{c(1|2)p_2}{c(2|1)p_1}
  • 与 Fisher LDA 的关系: 在无成本和先验概率(即 c(12)=c(21),p1=p2c(1|2)=c(2|1), p_1=p_2)的情况下,此方法等同于 Fisher LDA。

# 异方差二次判别分析 (QDA)

QDA 适用于多元正态分布异方差的情况。

  • 假设: 多元高斯分布
  • 最小化 ECM 判别规则:
    • 分类到 R1R_1: 12xT(Σ11Σ21)x+(μ1TΣ11μ2TΣ21)xklnc(12)p2c(21)p1-\frac{1}{2}x^T(\Sigma_1^{-1} - \Sigma_2^{-1})x + (\mu_1^T\Sigma_1^{-1} - \mu_2^T\Sigma_2^{-1})x - k \ge \ln\frac{c(1|2)p_2}{c(2|1)p_1}
    • 其中 k=12ln(Σ1Σ2)+12(μ1Σ11μ1μ2Σ21μ2)k = \frac{1}{2} \ln \left( \frac{|\Sigma_1|}{|\Sigma_2|} \right) + \frac{1}{2} \left( \mu_1' \Sigma_1^{-1} \mu_1 - \mu_2' \Sigma_2^{-1} \mu_2 \right)

# Fisher 线性判别分析 (LDA)

Fisher LDA 是一个投影方法,旨在找到一个最优的投影方向,使得投影后不同类别的数据尽可能分开,而同类别的数据尽可能紧密。

  • 假设: Σ1=Σ2\Sigma_1 = \Sigma_2
  • 投影表达式: X=aTYX = a^TY
  • 优化目标: 最大化投影后不同类别均值之差的平方与样本方差的比值。
    • argmaxaD2=(yˉ1yˉ2)2sy2\arg\max_aD^2 = \frac{(\bar y_1 - \bar y_2)^2}{s_y^2}
    • 其中 sy2=spooled2=i=1n1(y1iyˉ1)2+i=1n2(y2iyˉ2)2n1+n22s_y^2 = s_{pooled}^2 = \frac{\sum_{i=1}^{n_1}(y_{1i} - \bar y_1)^2 + \sum_{i=1}^{n_2}(y_{2i} - \bar y_2)^2}{n_1 + n_2 - 2}
  • 计算方式:
    • 投影方向 a^\hat a 的解为 a^(xˉ1xˉ2)TSpooled1\hat a \propto (\bar x_1 - \bar x_2)^TS_{pooled}^{-1}
    • 投影后样本的表达式: y^=a^Tx(xˉ1xˉ2)TSpooled1x\hat y = \hat a^Tx \propto (\bar x_1 - \bar x_2)^TS_{pooled}^{-1}x
    • 最大判别度量: Dmax2=(xˉ1xˉ2)TSpooled1(xˉ1xˉ2)D^2_{max} = (\bar x_1 - \bar x_2)^TS_{pooled}^{-1}(\bar x_1 - \bar x_2)
    • 合并协方差矩阵: Spooled=i=1n1(x1ixˉ1)(x1ixˉ1)T+i=1n2(x2ixˉ2)(x2ixˉ2)Tn1+n22S_{pooled} = \frac{\sum_{i=1}^{n_1}(x_{1i} - \bar x_1)(x_{1i} - \bar x_1)^T + \sum_{i=1}^{n_2}(x_{2i} - \bar x_2)(x_{2i} - \bar x_2)^T}{n_1 + n_2 - 2}
  • 决策边界: 判别界限为 yˉ1+yˉ22\frac{\bar y_1 + \bar y_2}{2}

# g 分类器 (多类别 LDA)

该方法将二分类 LDA 扩展到多于两个类别的情况 (g>2g > 2),其核心思想是找到最优的投影方向来最大化类别间的离散度。

  • 假设: 各类别同方差
  • 优化目标:
    • 最小化类内离散度同时最大化类间离散度。
    • argmaxaaBaaWa\arg\max_a\frac{a'Ba}{a'Wa}
    • 其中 B=i=1gni(xˉixˉ)(xˉixˉ)B = \sum_{i=1}^{g} n_i (\bar{x}_i - \bar{x})(\bar{x}_i - \bar{x})' 是类间协方差矩阵;W=i=1gj=1ni(xijxˉi)(xijxˉi)W = \sum_{i=1}^{g} \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)(x_{ij} - \bar{x}_i)' 是类内协方差矩阵。
  • 计算方式:
    • 最优投影方向 a^\hat{a} 是矩阵 W1BW^{-1}B 的特征向量。
    • 我们选取 W1BW^{-1}B 的前 ss 个最大的特征值 λ^1,,λ^s\hat\lambda_1, \ldots, \hat\lambda_s 所对应的特征向量 e^1,,e^s\hat e_1, \ldots, \hat e_s 作为投影方向,其中 smin(g1,p)s \le \min(g-1, p)
    • kk 个判别器为 a^kTx=e^kTx\hat a_k^Tx=\hat e_k^Tx
  • 判别方式:
    • 通常使用欧氏距离,将新样本投影后,归类到与其投影点欧氏距离最近的类别均值所对应的类别。
    • 欧氏距离表达式: (yμiY)(yμiY)=j=1s(yjμiYj)2(y - \mu_{iY})' (y - \mu_{iY}) = \sum_{j=1}^{s} (y_j - \mu_{iY_j})^2

# 分类方式的评估

# 错误分类的总概率 (TPM)

  • 定义: TPM=p1R2f1(x)dx+p2R1f2(x)dxTPM = p_1 \int_{R_2} f_1(x) \, dx + p_2 \int_{R_1} f_2(x) \, dx
  • 正态分布情况: TPM=Φ(Δ2)TPM=\Phi(-\frac{\Delta}{2})
    • 其中 Δ2=σY2=aΣa=(μ1μ2)Σ1(μ1μ2)\Delta^2 = \sigma_Y^2 = a' \Sigma a = (\mu_1 - \mu_2)' \Sigma^{-1} (\mu_1 - \mu_2) 是马氏距离的平方。

# 明显错误率 (APER)

  • 定义: APER 是根据已分类的样本计算的错误率。
    • APER=错误分类的样本数总样本数=n1M+n2Mn1+n2APER = \frac{\text{错误分类的样本数}}{\text{总样本数}} = \frac{n_{1M} + n_{2M}}{n_1 + n_2}
  • 评估方法: 通常使用 K 折交叉验证来得到更稳健的评估结果。

# 讨论

  1. 线性不变性: 判别分析的结果通常具有线性不变性,即对数据进行线性变换不影响其分类结果。
  2. 局限性: 判别分析主要适用于线性分类问题。对于非线性可分的数据,可以通过非线性变换来提升效果。