# 模型诊断

模型诊断主要通过检查模型的假设条件是否满足,以及数据中是否存在异常点来评估模型的稳健性。

# 偏回归图 (Partial Regression Plots)

偏回归图(又称添加变量图调整变量图)是评估模型中自变量与因变量关系的重要工具。

  • 作图原理:通过绘制 YY 对除 XiX_i 以外的所有自变量进行回归的残差,与 XiX_i 对除自身以外的所有自变量回归的残差之间的散点图。即 YXiY|X_{-i}XiXiX_i|X_{-i} 作图。
  • 用途
    • 直观展示偏相关系数,即在控制其他变量影响后,XiX_iYY 的边缘关系。
    • 有效检测非线性关系异方差性离群值
  • 与残差图的比较:偏回归图在检测非线性关系方面比普通残差图更精确。

# 异常值诊断

异常值(Outliers)是指在回归分析中,与模型预测值偏离较大的数据点。

  • 普通残差 (ee):
    e=YY^=(IH)Ye=Y-\hat Y=(I-H)Y
    Var(e)=σ2(IH)Var(e)=\sigma^2(I-H),其中 Var(ei)=σ2(1hii)Var(e_i)=\sigma^2(1-h_{ii})
  • 学生化残差(Studentized Residuals):
    ei=eiMSE(1hii)e^*_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}
  • 预测删除残差(Deleted Residuals):
    di=YiY^i,(i)=ei1hiid_i=Y_i-\hat Y_{i,(-i)}=\frac{e_i}{1-h_{ii}}
  • 学生化预测删除残差(Studentized Deleted Residuals):
    ti=diMSE(i)(1hii)=eiMSE(i)(1hii)t_i=\frac{d_i}{\sqrt{MSE_{(-i)}(1-h_{ii})}}=\frac{e_i}{\sqrt{MSE_{(-i)}(1-h_{ii})}}
    该残差服从 tnp1t_{n-p-1} 分布。
  • 诊断准则:若 ti>t1α/2n,np1|t_i|>t_{1-\alpha/2n,n-p-1},则该数据点可能为异常值。

# 杠杆值诊断

杠杆值(Leverage)用于衡量自变量空间的异常点。

  • 帽子矩阵(Hat Matrix):
    H=X(XTX)1XTH=X(X^TX)^{-1}X^T
    Y^=HY\hat Y=HY
  • 杠杆值 (hiih_{ii}):
    hiih_{ii} 是帽子矩阵 HH 对角线上的元素,反映了第 ii 个观测值对自身拟合值的影响程度。
    i=1nhii=tr(H)=p\sum_{i=1}^nh_{ii}=\text{tr}(H)=p
    平均杠杆值为 hˉ=p/n\bar h=p/n
  • 诊断准则:若 hii>2p/nh_{ii}>2p/n,则认为该数据点具有高杠杆值。

# 强影响点诊断

强影响点(Influential Observations)是指对回归结果(如系数估计)产生显著影响的数据点。强影响点通常同时具有高杠杆值和高残差。

  • DFFITS (Difference in Fits)

    • 定义:衡量移除第 ii 个观测值后,拟合值 Y^i\hat Y_i 的变化量。
      (DIFFIT)i=Y^iY^i,(i)=hii1hiiei(DIFFIT)_i=\hat Y_i-\hat Y_{i,(-i)}=\frac{h_{ii}}{1-h_{ii}}e_i
    • 学生化 DFFITS
      (DIFFITS)i=(DIFFIT)iMSE(i)hii=tihii1hii(DIFFITS)_i=\frac{(DIFFIT)_i}{\sqrt{MSE_{(-i)}h_{ii}}}=t_i\sqrt{\frac{h_{ii}}{1-h_{ii}}}
    • 诊断准则:对于少量数据,若 DFFITS>1|DFFITS|>1;对于大量数据,若 DFFITS>2p/n|DFFITS|>2\sqrt{p}/\sqrt{n},则表明该点为强影响点。
  • Cook's Distance

    • 定义:衡量移除第 ii 个观测值后,所有拟合值 Y^j\hat Y_j 的变化总和。
      Di=j=1n(Y^jY^j,(i))2pMSE=ei2pMSEhii(1hii)2D_i=\frac{\sum_{j=1}^n(\hat Y_j-\hat Y_{j,(-i)})^2}{p\cdot MSE}=\frac{e_i^2}{p\cdot MSE}\frac{h_{ii}}{(1-h_{ii})^2}
    • 诊断准则
      • Di>4/nD_i>4/n,则认为该点具有强影响力。
      • P(F<DiF(p,np))<0.2P(F<D_i|F(p,n-p)) < 0.2,影响力较小;若 0.5\ge 0.5,影响力较大。
  • DFBETAS

    • 定义:衡量移除第 ii 个观测值后,第 kk 个回归系数 bkb_k 的变化量。
      (DFBETAS)k,(i)=bkbk,(i)MSE(i)ckk(DFBETAS)_{k,(-i)}=\frac{b_k-b_{k,(-i)}}{\sqrt{MSE_{(-i)}c_{kk}}}
    • 诊断准则:对于少量数据,若 DFBETAS>1|DFBETAS|>1;对于大量数据,若 DFBETAS>2/n|DFBETAS|>2/\sqrt{n},则表明该点为强影响点。

# 多重共线性诊断

多重共线性(Multicollinearity)是指自变量之间存在高度相关性。

  • 方差膨胀因子(Variance Inflation Factor, VIF)

    • 定义
      (VIF)k=11Rk(k)2(VIF)_k=\frac{1}{1-R^2_{k|(-k)}}
      其中 Rk(k)2R^2_{k|(-k)}XkX_k 对其他所有自变量进行回归的 R2R^2
    • 诊断准则
      • (VIF)k>10(VIF)_k > 10,表明存在严重共线性。
      • 若平均 VIF VIF1\overline {VIF} \gg 1,也表明存在共线性。
  • 容忍度(Tolerance)

    • 定义:容忍度是 VIF 的倒数。
      (TOL)k=1Rk(k)2=1(VIF)k(TOL)_k=1-R_{k|(-k)}^2=\frac{1}{(VIF)_k}
    • 诊断准则:通常容忍度越小,共线性越严重。

# 模型矫正

当模型诊断发现问题时,可以采用不同的矫正方法来提升模型的稳健性和准确性。

# 加权最小二乘法 (WLS)

加权最小二乘法(Weighted Least Squares)用于处理异方差问题。

  • 优化目标:最小化加权残差平方和 argminwiei2\arg\min \sum w_ie_i^2
  • 核心问题:如何确定权重 wiw_i
  • 计算方式
    • 已知方差:若 Var(Y)=diag(σ12,σ22,...,σn2)Var(Y)=diag(\sigma_1^2, \sigma_2^2, ..., \sigma_n^2),则令 wi=1σi2w_i=\frac{1}{\sigma_i^2},得到加权回归方程。
    • 已知相对方差:若 Var(Y)=σ2diag(w1,w2,...,wn)Var(Y)=\sigma^2 diag(w_1, w_2, ..., w_n),则可对加权后的数据进行普通最小二乘法(OLS)。
    • 方差未知
      • 方法一:利用重复样本估计,令 wi=1si2w_i=\frac{1}{s^2_i}
      • 方法二:先用 OLS,再利用残差估计方差,σ^i2ei2\hat\sigma_i^2\approx e_i^2,令 wi=1σ^i2w_i=\frac{1}{\hat \sigma_i^2}。此过程可多次迭代。

# 岭回归、LASSO 与弹性网络

这些方法主要用于处理多重共线性

  • 岭回归(Ridge Regression):
    • 核心思想:通过在损失函数中增加一个 L2 范数的惩罚项来收缩系数,防止过拟合。
    • 优化目标Q=(YXβ)T(YXβ)+λβj2Q = (Y - X \beta)^T (Y - X \beta) + \lambda \sum \beta_j^2
    • 系数估计β^=(XTX+λI)1XTY\hat{\beta} = (X^T X + \lambda I)^{-1} X^T Y
  • LASSO (Least Absolute Shrinkage and Selection Operator):
    • 核心思想:通过增加 L1 范数的惩罚项来收缩系数,可以使部分系数变为 0,从而实现变量选择
    • 优化目标β^=argminβ((YXβ)T(YXβ)+λβj)\hat{\beta} = \arg\min_{\beta}\left((Y - X \beta)^T (Y - X \beta) + \lambda \sum |\beta_j|\right)
  • 弹性网络(Elastic Net):
    • 核心思想:结合了岭回归和 LASSO 的惩罚项,既能处理共线性又能进行变量选择。
    • 优化目标β^=argminβ(YXβ2+λ1β1+λ2β2)\hat{\beta} = \arg\min_{\beta} \left( \| Y - X \beta \|^2 + \lambda_1 \| \beta \|_1 + \lambda_2 \| \beta \|^2 \right)
  • 贝叶斯解释
    • 岭回归可以看作是系数 β\beta 服从正态分布的先验假设。
    • LASSO 则对应于系数 β\beta 服从拉普拉斯分布的先验假设。

# 鲁棒回归

鲁棒回归(Robust Regression)用于降低离群值对模型估计的影响。

  • 最小绝对离差回归(LAD):最小化残差绝对值之和。
  • 最小中位平方回归(LMS):最小化残差平方的中位数。
  • 迭代重加权最小二乘法(IRLS):通过 WLS 的迭代方法,为残差较大的数据点赋予更低的权重。
  • 代价:通常计算量更大。

# 非参数回归

非参数回归(Non-parametric Regression)用于处理自变量与因变量之间的非线性关系,不预设特定的函数形式。

  • 方法:通常包括拟合项、惩罚项和平滑项。
  • 替代方法:也可使用回归树等方法。

# 自举法

自举法(Bootstrap)是一种利用重抽样来估计模型参数精度的统计方法。

  • 用途:为复杂情况下的样本估计提供精度评估。
  • 方法一:直接对数据进行有放回的重新抽样,形成多个新的样本。
  • 方法二:对模型的残差进行有放回的重新抽样,生成新的因变量值,从而间接形成新的样本。

# 常见回归方式列举

  • 线性回归 (Linear Regression)
  • 逻辑回归 (Logistic Regression)
  • 多项式回归 (Polynomial Regression)
  • 逐步回归 (Stepwise Regression)
  • 岭回归 (Ridge Regression)
  • LASSO 回归 (Lasso Regression)
  • 弹性网络回归 (Elastic Net Regression)