# 多元线性回归模型

多元线性回归模型可以表示为:

Y=Xβ+εY=X\beta+\varepsilon

其中,矩阵和向量的定义如下:

  • YYn×1n \times 1 的因变量向量:Yn×1=[Y1Y2Yn]TY_{n\times 1}=\begin{bmatrix}Y_1&Y_2&\cdots&Y_{n}\end{bmatrix}^T
  • XXn×pn \times p 的自变量矩阵:

    Xn×p=[1X11X12X1,p11X21X22X2,p11Xn1Xn2Xn,p1]X_{n\times p}= \begin{bmatrix} 1&X_{11}&X_{12}&\cdots&X_{1,p-1}\\ 1&X_{21}&X_{22}&\cdots&X_{2,p-1}\\ \vdots&\vdots&\vdots&\ddots&\vdots&\\ 1&X_{n1}&X_{n2}&\cdots&X_{n,p-1}\\ \end{bmatrix}

    • Xi,1,Xi,2,...,Xi,p1X_{i,1},X_{i,2},...,X_{i,p-1} 称为解释变量(或预测变量)。
    • 矩阵 XX 也可以表示为列向量或行向量的形式:
      • X=[1n  X1  ...  Xp1]X=[1_n\ |\ X_1\ |\ ...\ |\ X_{p-1}]
      • X=[X(1)  X(2)  ...  X(n)]TX=[X_{(1)}\ |\ X_{(2)}\ |\ ...\ |\ X_{(n)}]^T
      • Xi=[1  x(i)]X_{i}=[1\ |\ x_{(i)}]
  • β\betap×1p \times 1 的系数向量:βp×1=[β0β1βp1]T\beta_{p\times1}=\begin{bmatrix}\beta_0&\beta_1&\cdots&\beta_{p-1}\end{bmatrix}^T
  • ε\varepsilonn×1n \times 1 的误差项向量:ε=[ε1ε2εn]T\varepsilon=\begin{bmatrix}\varepsilon_1&\varepsilon_2&\cdots&\varepsilon_{n}\end{bmatrix}^T

模型假设

多元线性回归模型依赖于以下核心假设:

  • 线性性:参数 β\beta 是线性的。
  • 随机性:数据是从总体中随机抽样的。
  • 外生性:自变量 XX 与误差项 ε\varepsilon 不相关。
  • 非共线性:自变量之间没有完全线性相关性,即矩阵 XX 的秩为 pprank(X)=prank(X)=p
  • 均方差性:误差项的方差为常数,与自变量的值无关。
  • 正态性:误差项服从均值为 0、方差为常数的正态分布,即 εN(0,σ2In)\varepsilon \sim N(0,\sigma^2I_n)
    • 基于此,因变量 YY 也服从正态分布:YN(Xβ,σ2In)Y\sim N(X\beta, \sigma^2I_n)

# 最小二乘估计

目标:通过最小化残差平方和(YXβ2\lVert Y-X\beta \rVert^2)来估计系数 β\beta

β^=argminβ YXβ=argminβ (YXβ)T(YXβ)\hat \beta=\arg\min_\beta\ \lVert Y-X\beta \rVert=\arg\min_\beta\ (Y-X\beta)^T(Y-X\beta)

估计量:在 rank(X)=prank(X)=p 的约束下,β\beta 的最小二乘估计量为 bb

b=β^=(XTX)1XTYb=\hat\beta=(X^TX)^{-1}X^TY

预测值和残差

  • 预测值 Y^\hat YYYXX 的列空间上的投影:

    Y^=Xb=X(XTX)1XTY=HY\hat Y=Xb=X(X^TX)^{-1}X^TY=HY

  • 残差 ee 是观测值与预测值之间的差异:

    e=YY^=(IH)Ye=Y-\hat Y=(I-H)Y

其中,H=X(XTX)1XTH = X(X^TX)^{-1}X^T 称为投影矩阵或“帽”矩阵。

  • 性质HH 是对称幂等矩阵(H=HT,H2=HH=H^T, H^2=H),其秩为 pp
  • 几何直观
    • Y^\hat Y 位于 XX 的列空间 C(X)C(X) 中。
    • 残差 ee 垂直于预测值 Y^\hat YeTY^=0e^T\hat Y=0),并且垂直于 XX 的列空间。
  • IHI-H 也是对称幂等矩阵,其秩为 npn-p,对应于误差项的自由度 dfedf_e
  • 对于任何幂等矩阵 AA,其秩等于其迹(rank(A)=tr(A)rank(A)=tr(A)),且其特征值仅为 0 或 1。

# 系数估计量 bb 的性质

在模型假设下,最小二乘估计量 bb 具有以下性质:

  • 无偏性E[b]=βE[b]=\beta
  • 方差Cov(b)=σ2(XTX)1Cov(b)=\sigma^2(X^TX)^{-1}
  • 分布bb 服从均值为 β\beta、协方差矩阵为 σ2(XTX)1\sigma^2(X^TX)^{-1} 的多元正态分布:bN(β,σ2(XTX)1)b\sim N(\beta, \sigma^2(X^TX)^{-1})
  • 估计方差:用残差方差的估计值 s2s^2 代替 σ2\sigma^2

    s2(b)=s2(XTX)1=YT(IH)Ynp(XTX)1s^2(b)=s^2(X^TX)^{-1}=\frac{Y^T(I-H)Y}{n-p}(X^TX)^{-1}

高斯-马尔可夫定理(BLUE)
在上述假设下,普通最小二乘估计量 bb 是最佳线性无偏估计(Best Linear Unbiased Estimator),即在所有线性无偏估计量中,它的方差最小。


# 方差和残差分析

残差平方和(SSE)

SSE=eTe=(YY^)T(YY^)=YT(IH)YSSE=e^Te=(Y-\hat Y)^T(Y-\hat Y)=Y^T(I-H)Y

误差方差的估计

s2=MSE=SSEdfE=YT(IH)Ynp=εT(IH)εnps^2=MSE=\frac{SSE}{df_{E}}=\frac{Y^T(I-H)Y}{n-p}=\frac{\varepsilon^T(I-H)\varepsilon}{n-p}

  • 自由度 dfE=npdf_E=n-p
  • E[MSE]=σ2E[MSE]=\sigma^2,说明 MSEMSEσ2\sigma^2 的无偏估计。

残差的协方差

  • Cov(e)=Cov((IH)Y)=(IH)Cov(Y)(IH)T=σ2(IH)Cov(e)=Cov((I-H)Y)=(I-H)Cov(Y)(I-H)^T = \sigma^2(I-H)

投影矩阵 HH 的对角线元素

  • hiih_{ii}HH 矩阵的第 ii 个对角线元素,代表第 ii 个观测值对自身的预测值的影响:hii=Y^iYih_{ii}=\frac{\partial \hat Y_i}{\partial Y_i}
  • hiih_{ii} 的取值范围是 0hii10 \le h_{ii} \le 1
  • hiih_{ii} 也与第 ii 个观测值的杠杆值(leverage)相关,表示其对回归线的影响力:D2(x(i),xˉ)=(n1)(hii1n)D^2(x_{(i)},\bar x)=(n-1)(h_{ii}-\frac1n)

# 方差分析(ANOVA)

方差分析将总变异分解为回归引起的变异和残差引起的变异。

  • 基本量

    • 总平方和(SST):因变量总变异。

      SST=i(YiYˉ)2=(YYˉ1n)T(YYˉ1n)=YT(I1nJ)YSST=\sum_i(Y_i-\bar Y)^2=(Y-\bar Y1_n)^T(Y-\bar Y1_n) = Y^T(I-\frac1n J)Y

    • 回归平方和(SSM):由模型解释的变异。

      SSM=i(Y^iYˉ)2=(Y^Yˉ1n)T(Y^Yˉ1n)=YT(H1nJ)YSSM=\sum_i(\hat Y_i-\bar Y)^2=(\hat Y-\bar Y1_n)^T(\hat Y-\bar Y1_n) = Y^T(H-\frac1n J)Y

    • 残差平方和(SSE):模型未解释的变异。

      SSE=i(YiY^i)2=(YY^)T(YY^)=YT(IH)YSSE=\sum_i(Y_i-\hat Y_i)^2=(Y-\hat Y)^T(Y-\hat Y) = Y^T(I-H)Y

    • 其中 JJ 是所有元素都为 1 的 n×nn \times n 矩阵,1nJ\frac1n J 是对称幂等矩阵,秩为 1。
  • 平方和分解SST=SSM+SSESST=SSM+SSE

  • 自由度

    • dfT=n1df_T = n-1
    • dfM=p1df_M = p-1
    • dfE=npdf_E = n-p
  • 均方

    • MST=SSMdfMMST=\frac{SSM}{df_M}
    • MSE=SSEdfEMSE=\frac{SSE}{df_E}
  • 均方的期望

    • E[MSE]=σ2E[MSE]=\sigma^2
    • E[MSM]=σ2+1p1(Xβ)T(I1nJ)(Xβ)E[MSM]=\sigma^2+\frac1{p-1}(X\beta)^T(I-\frac1nJ)(X\beta)
    • rank(X)=prank(X)=p 时,(Xβ)T(I1nJ)(Xβ)0(X\beta)^T(I-\frac1nJ)(X\beta)\ge0。该项等于 0 当且仅当 β1=β2=...=βp1=0\beta_1=\beta_2=...=\beta_{p-1}=0

# 模型显著性检验与拟合优度

F 检验
用于检验模型整体的显著性,即自变量是否至少有一个对因变量有显著影响。

  • 零假设 H0:β1=β2=...=βp1=0H_0:\beta_1=\beta_2=...=\beta_{p-1}=0
  • 备择假设 H1:H_1: 至少有一个 βj0\beta_j \ne 0
  • 统计量

    F=MSMMSEFp1,npF^*=\frac{MSM}{MSE}\sim F_{p-1,n-p}

    H0H_0 成立时,FF^* 服从自由度为 (p1,np)(p-1, n-p) 的 F 分布。

多重检验系数(R2R^2
用于衡量模型的拟合优度,即自变量解释了因变量变异的百分比。

R2=rY,Y^2=1SSESSTR^2=r^2_{Y,\hat Y}=1-\frac{SSE}{SST}

R2R^2 也可以通过 F 统计量来计算:

F=R21R2npp1F=\frac{R^2}{1-R^2}\frac{n-p}{p-1}

调整的 R2R^2Ra2R_a^2
考虑到自变量数量的影响,对 R2R^2 进行调整。

Ra2=1MSEMST=1n1npSSESSTR_a^2=1-\frac{MSE}{MST}=1-\frac{n-1}{n-p}\frac{SSE}{SST}