# 关键问题

在模型选择中,有两个关键问题:

  1. 子集大小:应该使用多少个解释变量?
  2. 变量选择:在给定的子集大小下,应该选择哪些变量?

# 模型选择方法

  • 交叉验证(Cross-Validation)
    • 留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)
    • K 折交叉验证(K-Fold Cross-Validation)
    • 这两种方法适用于数据量不足的情况,通过划分训练集和测试集来验证模型性能。
  • 子集选择(Subset Selection)
    • 洪泛法(Exhaustive Search):当子集大小较小时,可以穷举所有可能的模型组合,选择最优的一个或多个模型。
    • 贪心算法(Greedy Algorithms):当子集大小较大时,通过逐步添加或删除变量来寻找最优模型。包括:
      • 向前逐步选择(Forward Stepwise Selection)
      • 向后逐步选择(Backward Stepwise Selection)
      • 双向逐步选择(Bidirectional Stepwise Selection):在每次加入新变量后,对每个变量进行显著性检验,决定是否加入或删除变量。
  • 正则化和收缩方法(Regularization and Shrinkage)
    • 岭回归(Ridge Regression)
    • LASSO(Least Absolute Shrinkage and Selection Operator)

# 模型检验准则

# R2R^2 与调整 R2R^2 (Ra2R^2_a)

  1. 定义

    R2=1SSE(p)SSTRa2=1n1npSSE(p)SST=1MSE(p)MSTR^2=1-\frac{SSE(p)}{SST}\\ R^2_a=1-\frac{n-1}{n-p}\frac{SSE(p)}{SST}=1-\frac{MSE(p)}{MST}

  2. 准则
    • R2R^2 会随着解释变量的增加而单调不减,但其增速会逐渐放缓。
    • 调整 R2R^2 则先增加后减小。
    • 选择使调整 R2R^2 最大的模型,这等价于选择使均方误差(MSE)最小的模型。

# Mallow's CpC_p

  1. 权衡(Trade-off)

    • 解释变量越多,模型的偏差(Bias)越小,但方差(Variance)会增大。
    • 模型的总均方预测误差(Total Sum of Squared Prediction Error, TSSPE)为:

      i=1nE(Y^ipμi)2=i=1n(EY^ipμi)2+i=1nVar(Y^ip)=Bias2+Variance\sum_{i=1}^n \Epsilon(\hat Y_i^p-\mu_i)^2=\sum_{i=1}^n (\Epsilon\hat Y_i^p-\mu_i)^2+\sum_{i=1}^nVar(\hat Y_i^p)=Bias^2+Variance

    • 其中,Bias2=E[SSE(p)](np)σ2Bias^2=\Epsilon[SSE(p)]-(n-p)\sigma^2Variance=pσ2Variance=p\sigma^2
  2. 定义

    • Mallow's CpC_p 准则的目的是估计标准化总均方预测误差:

      Γp=i=1nE(Y^ipμi)2σ2=E[SSE(p)]σ2(n2p)\Gamma_p=\frac{\sum_{i=1}^n \Epsilon(\hat Y_i^p-\mu_i)^2}{\sigma^2}=\frac{\Epsilon[SSE(p)]}{\sigma^2}-(n-2p)

    • 对于完整的全模型(Full Model),当 p=np=n 时,Γp=p\Gamma_p=p
    • Mallow's CpC_p 的计算公式为:

      Cp=Γ^p=SSE(p)MSE(P)(n2p)C_p=\hat \Gamma_p=\frac{SSE(p)}{MSE(P)}-(n-2p)

  3. 准则

    • 选择使 CpC_p 值接近解释变量个数 pp 的模型。
    • 同时,选择 CpC_p 值较小的模型。
    • CppC_p \gg p:表明模型存在显著的失拟(lack of fit)。
    • CppC_p \ll p:表明模型可能存在过拟合(overfitting)。

# AIC 与 BIC

  1. 赤池信息准则(AIC, Akaike Information Criterion)

    • 通用定义

      AIC(p)=2logL^+2pAIC(p)=-2\log\hat L+2p

    • 回归模型下的定义

      AIC(p)=nlog(SSE(p)n)+2pAIC(p)=n\log (\frac{SSE(p)}{n})+2p

    • 准则:选择使 AIC(p)AIC(p) 最小的模型。
    • 在高斯线性回归模型背景下,AIC 与 Mallow's CpC_p 等价。
  2. 贝叶斯信息准则(BIC, Bayesian Information Criterion)

    • 通用定义

      BIC(p)=2logL^+plognBIC(p)=-2\log \hat L+p\log n

    • 回归模型下的定义

      BIC(p)=nlog(SSE(p)n)+plognBIC(p)=n\log (\frac{SSE(p)}{n})+p\log n

    • 准则:选择使 BIC(p)BIC(p) 最小的模型。

# PRESS 与 Rp2R^2_p

  1. PRESS 准则

    • 定义:预测残差平方和(Prediction Residual Sum of Squares)

      PRESS(p)=i=1n(YiY^i,(i))2PRESS(p)=\sum_{i=1}^n(Y_i-\hat Y_{i,(-i)})^2

    • 其中,Y^i,(i)\hat Y_{i,(-i)} 是使用去除第 ii 个样本后的数据集训练得到的模型对第 ii 个样本的预测值。这是一种交叉验证的形式。
    • 计算式

      YiY^i,(i)=ei1hiiei=YiY^iY_i-\hat Y_{i,(-i)}=\frac{e_i}{1-h_{ii}}\\ e_i=Y_i-\hat Y_i

    • 准则:选择使 PRESS(p)PRESS(p) 最小的模型。
  2. 预测 R2R^2 (Rp2R^2_p)

    • 定义

      Rp2=1PRESSSSTR^2_p=1-\frac{PRESS}{SST}

    • 准则:选择使 Rp2R^2_p 最大的模型。
    • 与调整 R2R^2 类似,Rp2R^2_p 可能为负值。
    • 如果 Rp2R2R^2_p \ll R^2,则表明模型可能存在过拟合。