# 模型诊断
模型诊断主要通过检查模型的假设条件是否满足,以及数据中是否存在异常点来评估模型的稳健性。
# 偏回归图 (Partial Regression Plots)
偏回归图(又称添加变量图或调整变量图)是评估模型中自变量与因变量关系的重要工具。
- 作图原理:通过绘制 对除 以外的所有自变量进行回归的残差,与 对除自身以外的所有自变量回归的残差之间的散点图。即 对 作图。
- 用途:
- 直观展示偏相关系数,即在控制其他变量影响后, 与 的边缘关系。
- 有效检测非线性关系、异方差性和离群值。
- 与残差图的比较:偏回归图在检测非线性关系方面比普通残差图更精确。
# 异常值诊断
异常值(Outliers)是指在回归分析中,与模型预测值偏离较大的数据点。
- 普通残差 ():
,其中 - 学生化残差(Studentized Residuals):
- 预测删除残差(Deleted Residuals):
- 学生化预测删除残差(Studentized Deleted Residuals):
该残差服从 分布。 - 诊断准则:若 ,则该数据点可能为异常值。
# 杠杆值诊断
杠杆值(Leverage)用于衡量自变量空间的异常点。
- 帽子矩阵(Hat Matrix):
- 杠杆值 ():
是帽子矩阵 对角线上的元素,反映了第 个观测值对自身拟合值的影响程度。
平均杠杆值为 。 - 诊断准则:若 ,则认为该数据点具有高杠杆值。
# 强影响点诊断
强影响点(Influential Observations)是指对回归结果(如系数估计)产生显著影响的数据点。强影响点通常同时具有高杠杆值和高残差。
-
DFFITS (Difference in Fits)
- 定义:衡量移除第 个观测值后,拟合值 的变化量。
- 学生化 DFFITS:
- 诊断准则:对于少量数据,若 ;对于大量数据,若 ,则表明该点为强影响点。
- 定义:衡量移除第 个观测值后,拟合值 的变化量。
-
Cook's Distance
- 定义:衡量移除第 个观测值后,所有拟合值 的变化总和。
- 诊断准则:
- 若 ,则认为该点具有强影响力。
- 若 ,影响力较小;若 ,影响力较大。
- 定义:衡量移除第 个观测值后,所有拟合值 的变化总和。
-
DFBETAS
- 定义:衡量移除第 个观测值后,第 个回归系数 的变化量。
- 诊断准则:对于少量数据,若 ;对于大量数据,若 ,则表明该点为强影响点。
- 定义:衡量移除第 个观测值后,第 个回归系数 的变化量。
# 多重共线性诊断
多重共线性(Multicollinearity)是指自变量之间存在高度相关性。
-
方差膨胀因子(Variance Inflation Factor, VIF)
- 定义:
其中 是 对其他所有自变量进行回归的 。 - 诊断准则:
- 若 ,表明存在严重共线性。
- 若平均 VIF ,也表明存在共线性。
- 定义:
-
容忍度(Tolerance)
- 定义:容忍度是 VIF 的倒数。
- 诊断准则:通常容忍度越小,共线性越严重。
- 定义:容忍度是 VIF 的倒数。
# 模型矫正
当模型诊断发现问题时,可以采用不同的矫正方法来提升模型的稳健性和准确性。
# 加权最小二乘法 (WLS)
加权最小二乘法(Weighted Least Squares)用于处理异方差问题。
- 优化目标:最小化加权残差平方和 。
- 核心问题:如何确定权重 。
- 计算方式:
- 已知方差:若 ,则令 ,得到加权回归方程。
- 已知相对方差:若 ,则可对加权后的数据进行普通最小二乘法(OLS)。
- 方差未知:
- 方法一:利用重复样本估计,令 。
- 方法二:先用 OLS,再利用残差估计方差,,令 。此过程可多次迭代。
# 岭回归、LASSO 与弹性网络
这些方法主要用于处理多重共线性。
- 岭回归(Ridge Regression):
- 核心思想:通过在损失函数中增加一个 L2 范数的惩罚项来收缩系数,防止过拟合。
- 优化目标:。
- 系数估计:。
- LASSO (Least Absolute Shrinkage and Selection Operator):
- 核心思想:通过增加 L1 范数的惩罚项来收缩系数,可以使部分系数变为 0,从而实现变量选择。
- 优化目标:。
- 弹性网络(Elastic Net):
- 核心思想:结合了岭回归和 LASSO 的惩罚项,既能处理共线性又能进行变量选择。
- 优化目标:。
- 贝叶斯解释:
- 岭回归可以看作是系数 服从正态分布的先验假设。
- LASSO 则对应于系数 服从拉普拉斯分布的先验假设。
# 鲁棒回归
鲁棒回归(Robust Regression)用于降低离群值对模型估计的影响。
- 最小绝对离差回归(LAD):最小化残差绝对值之和。
- 最小中位平方回归(LMS):最小化残差平方的中位数。
- 迭代重加权最小二乘法(IRLS):通过 WLS 的迭代方法,为残差较大的数据点赋予更低的权重。
- 代价:通常计算量更大。
# 非参数回归
非参数回归(Non-parametric Regression)用于处理自变量与因变量之间的非线性关系,不预设特定的函数形式。
- 方法:通常包括拟合项、惩罚项和平滑项。
- 替代方法:也可使用回归树等方法。
# 自举法
自举法(Bootstrap)是一种利用重抽样来估计模型参数精度的统计方法。
- 用途:为复杂情况下的样本估计提供精度评估。
- 方法一:直接对数据进行有放回的重新抽样,形成多个新的样本。
- 方法二:对模型的残差进行有放回的重新抽样,生成新的因变量值,从而间接形成新的样本。
# 常见回归方式列举
- 线性回归 (Linear Regression)
- 逻辑回归 (Logistic Regression)
- 多项式回归 (Polynomial Regression)
- 逐步回归 (Stepwise Regression)
- 岭回归 (Ridge Regression)
- LASSO 回归 (Lasso Regression)
- 弹性网络回归 (Elastic Net Regression)