# 关键问题
在模型选择中,有两个关键问题:
- 子集大小:应该使用多少个解释变量?
- 变量选择:在给定的子集大小下,应该选择哪些变量?
# 模型选择方法
- 交叉验证(Cross-Validation):
- 留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)
- K 折交叉验证(K-Fold Cross-Validation)
- 这两种方法适用于数据量不足的情况,通过划分训练集和测试集来验证模型性能。
- 子集选择(Subset Selection):
- 洪泛法(Exhaustive Search):当子集大小较小时,可以穷举所有可能的模型组合,选择最优的一个或多个模型。
- 贪心算法(Greedy Algorithms):当子集大小较大时,通过逐步添加或删除变量来寻找最优模型。包括:
- 向前逐步选择(Forward Stepwise Selection)
- 向后逐步选择(Backward Stepwise Selection)
- 双向逐步选择(Bidirectional Stepwise Selection):在每次加入新变量后,对每个变量进行显著性检验,决定是否加入或删除变量。
- 正则化和收缩方法(Regularization and Shrinkage):
- 岭回归(Ridge Regression)
- LASSO(Least Absolute Shrinkage and Selection Operator)
# 模型检验准则
# 与调整 ()
- 定义
- 准则
- 会随着解释变量的增加而单调不减,但其增速会逐渐放缓。
- 调整 则先增加后减小。
- 选择使调整 最大的模型,这等价于选择使均方误差(MSE)最小的模型。
# Mallow's
-
权衡(Trade-off)
- 解释变量越多,模型的偏差(Bias)越小,但方差(Variance)会增大。
- 模型的总均方预测误差(Total Sum of Squared Prediction Error, TSSPE)为:
- 其中,, 。
-
定义
- Mallow's 准则的目的是估计标准化总均方预测误差:
- 对于完整的全模型(Full Model),当 时,。
- Mallow's 的计算公式为:
- Mallow's 准则的目的是估计标准化总均方预测误差:
-
准则
- 选择使 值接近解释变量个数 的模型。
- 同时,选择 值较小的模型。
- :表明模型存在显著的失拟(lack of fit)。
- :表明模型可能存在过拟合(overfitting)。
# AIC 与 BIC
-
赤池信息准则(AIC, Akaike Information Criterion)
- 通用定义:
- 回归模型下的定义:
- 准则:选择使 最小的模型。
- 在高斯线性回归模型背景下,AIC 与 Mallow's 等价。
- 通用定义:
-
贝叶斯信息准则(BIC, Bayesian Information Criterion)
- 通用定义:
- 回归模型下的定义:
- 准则:选择使 最小的模型。
- 通用定义:
# PRESS 与
-
PRESS 准则
- 定义:预测残差平方和(Prediction Residual Sum of Squares)
- 其中, 是使用去除第 个样本后的数据集训练得到的模型对第 个样本的预测值。这是一种交叉验证的形式。
- 计算式:
- 准则:选择使 最小的模型。
- 定义:预测残差平方和(Prediction Residual Sum of Squares)
-
预测 ()
- 定义:
- 准则:选择使 最大的模型。
- 与调整 类似, 可能为负值。
- 如果 ,则表明模型可能存在过拟合。
- 定义: