# 概念

# 零相关(理想情况)

在理想的零相关(正交)情况下,回归模型中的解释变量彼此独立。

  • 回归系数:每个回归系数由其对应的解释变量唯一确定。
    • b=(XTX)1XTYN(β, σ2(XTX)1)b=(X^TX)^{-1}X^TY\sim N(\beta,\ \sigma^2(X^TX)^{-1})
    • XTX=diag(X02,X12,...,Xp12)X^TX=diag(||X_0^2||,||X_1^2||,...,||X_{p-1}||^2)
    • bj=XjTYXj2, Var(bj)=σ2Xj2b_j=\frac{X^T_jY}{||X_j||^2},\ Var(b_j)=\frac{\sigma^2}{||X_j||^2}
  • 多变量回归:对于有两个解释变量的情况,去除其他变量后,回归系数不变。
    • b1=(Xi1Xˉ1)(YiYˉ)(Xi1Xˉ1)2b_1=\frac{\sum(X_{i1}-\bar X_1)(Y_i-\bar Y)}{\sum(X_{i1}-\bar X_1)^2}
  • 统计量:去除其他变量后,三种平方和(SS)不变,但由于总平方和(SST)不同,导致 P 值会改变。

# 线性相关(完全共线性)

当解释变量之间存在严格的线性关系时,即 ipiXji=c\sum_{i}p_{i}X_{ji}=c ,模型无法唯一求解。

  • :此时设计矩阵 XX 的秩小于变量数 pp,即 rank(XTX)=rank(X)<prank(X^TX)=rank(X)<p
  • :回归系数 bb 不存在,无法得到唯一解。

# 一般情形

在实际应用中,多重共线性通常表现为解释变量之间存在高度相关性,而非完全线性相关。

  • 回归系数
    • 不影响回归系数 bXb_X 的无偏性,但会增大其方差。
    • 回归系数的方差增大,可能导致其统计上不显著,甚至出现符号与预期相反的情况(例如,本应正相关的解释变量回归系数变为负)。
  • 模型评估
    • R2R^2:在模型中增加变量,R2R^2 总是增大(因为模型解释的变异比例增加)。
    • 调整 R2R^2:与均方误差(MSE)等价,其变化方向不确定。
  • 多重共线性的特征
    • 模型整体的拟合优度 R2R^2 较高,但单个回归系数的显著性可能很低。
    • 模型可解释性下降。
    • 可能出现过拟合。
    • 一类错误(Type 1 error)与二/三类错误(Type 2/3 error)不同。

# 补救措施

# 常用方法

  • 数据收集:在不同的实验或观测条件下收集额外数据。
  • 主成分分析 (PCA):将高度相关的解释变量转换为一组不相关的正交变量。
  • 变量选择:删除部分预测变量。
  • 变量转换:对变量进行转换,例如取对数或平方根。
  • 中心化:对解释变量进行中心化处理,可以有效缓解多重共线性问题。

# 重要变量的遗漏

  • 删除变量:删除变量后,需关注均方误差(MSE)的变化,它可能增大,也可能减小。
  • 辛普森悖论:在删除或合并数据时,可能出现辛普森悖论,即在分组数据中观察到的趋势与整体数据的趋势相矛盾。
  • 实验设计 (DOE):通过设计实验来确定关键输入变量是否与关键输出变量相关。

# 多项式回归

多项式回归通过在模型中增加高次项或交叉项来拟合非线性关系。

  • 设计要点
    • 如果加入高次项,必须保留低次项(即嵌套原则)。
    • 中心化可以使原本不显著的解释变量变得显著。
    • 如果保留高次项但去掉低阶项,需要有先验知识作为依据(例如,去掉截距项表示模型过原点)。
  • 方差分析 (ANOVA):中心化后,ANOVA 表格不变。这是因为 ANOVA 使用的是第一类平方和(Type 1 SS)。当加入线性项时,中心化引入的常数由截距项吸收;当加入高次项时,中心化引入的低次项的改变被已存在的低次项吸收。
  • 重复与复制Replicate (重复实验) ≠ Repeat (简单重复)。
    • 简单重复是在环境不变时的多次测量,这会导致对误差方差 σ2\sigma^2 的估计偏小,从而出现过拟合。
    • 复制实验是在不同条件下重复实验,能更准确地估计误差方差。

# 交互效应模型

交互效应模型用于分析一个变量的影响如何随着另一个变量的变化而改变,通常用于离散变量和连续变量的组合。

  • 模型形式
    • Y=β0+β1X1+β2X2+β3X1X2+εY=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_1X_2+\varepsilon
    • X1=0X_1=0 时:Y=β0+β2X2+εY=\beta_0+\beta_2X_2+\varepsilon
    • X1=1X_1=1 时:Y=β0+β1+(β2+β3)X2+εY=\beta_0+\beta_1+(\beta_2+\beta_3)X_2+\varepsilon
  • 显著性检验
    • 截距是否相同:检验 β1=0\beta_1=0
    • 斜率是否相同:检验 β3=0\beta_3=0
    • 两个模型是否相同:联合检验 β1=β3=0\beta_1=\beta_3=0
  • 哑变量:当离散变量有三个或更多取值时,最好使用多个二元哑变量来表示。这有助于匹配自由度,并方便进行统计检验。只使用一个离散变量的模型相当于使用多个二元哑变量模型的简化(reduced)模型。