# 多元线性回归模型
多元线性回归模型可以表示为:
Y=Xβ+ε
其中,矩阵和向量的定义如下:
- Y 是 n×1 的因变量向量:Yn×1=[Y1Y2⋯Yn]T
- X 是 n×p 的自变量矩阵:
Xn×p=11⋮1X11X21⋮Xn1X12X22⋮Xn2⋯⋯⋱⋯X1,p−1X2,p−1⋮Xn,p−1
- Xi,1,Xi,2,...,Xi,p−1 称为解释变量(或预测变量)。
- 矩阵 X 也可以表示为列向量或行向量的形式:
- X=[1n ∣ X1 ∣ ... ∣ Xp−1]
- X=[X(1) ∣ X(2) ∣ ... ∣ X(n)]T
- Xi=[1 ∣ x(i)]
- β 是 p×1 的系数向量:βp×1=[β0β1⋯βp−1]T
- ε 是 n×1 的误差项向量:ε=[ε1ε2⋯εn]T
模型假设
多元线性回归模型依赖于以下核心假设:
- 线性性:参数 β 是线性的。
- 随机性:数据是从总体中随机抽样的。
- 外生性:自变量 X 与误差项 ε 不相关。
- 非共线性:自变量之间没有完全线性相关性,即矩阵 X 的秩为 p,rank(X)=p。
- 均方差性:误差项的方差为常数,与自变量的值无关。
- 正态性:误差项服从均值为 0、方差为常数的正态分布,即 ε∼N(0,σ2In)。
- 基于此,因变量 Y 也服从正态分布:Y∼N(Xβ,σ2In)。
# 最小二乘估计
目标:通过最小化残差平方和(∥Y−Xβ∥2)来估计系数 β。
β^=argβmin ∥Y−Xβ∥=argβmin (Y−Xβ)T(Y−Xβ)
估计量:在 rank(X)=p 的约束下,β 的最小二乘估计量为 b。
b=β^=(XTX)−1XTY
预测值和残差:
其中,H=X(XTX)−1XT 称为投影矩阵或“帽”矩阵。
- 性质:H 是对称幂等矩阵(H=HT,H2=H),其秩为 p。
- 几何直观:
- Y^ 位于 X 的列空间 C(X) 中。
- 残差 e 垂直于预测值 Y^(eTY^=0),并且垂直于 X 的列空间。
- I−H 也是对称幂等矩阵,其秩为 n−p,对应于误差项的自由度 dfe。
- 对于任何幂等矩阵 A,其秩等于其迹(rank(A)=tr(A)),且其特征值仅为 0 或 1。
# 系数估计量 b 的性质
在模型假设下,最小二乘估计量 b 具有以下性质:
高斯-马尔可夫定理(BLUE):
在上述假设下,普通最小二乘估计量 b 是最佳线性无偏估计(Best Linear Unbiased Estimator),即在所有线性无偏估计量中,它的方差最小。
# 方差和残差分析
残差平方和(SSE):
SSE=eTe=(Y−Y^)T(Y−Y^)=YT(I−H)Y
误差方差的估计:
s2=MSE=dfESSE=n−pYT(I−H)Y=n−pεT(I−H)ε
- 自由度 dfE=n−p。
- E[MSE]=σ2,说明 MSE 是 σ2 的无偏估计。
残差的协方差:
- Cov(e)=Cov((I−H)Y)=(I−H)Cov(Y)(I−H)T=σ2(I−H)。
投影矩阵 H 的对角线元素:
- hii 是 H 矩阵的第 i 个对角线元素,代表第 i 个观测值对自身的预测值的影响:hii=∂Yi∂Y^i。
- hii 的取值范围是 0≤hii≤1。
- hii 也与第 i 个观测值的杠杆值(leverage)相关,表示其对回归线的影响力:D2(x(i),xˉ)=(n−1)(hii−n1)。
# 方差分析(ANOVA)
方差分析将总变异分解为回归引起的变异和残差引起的变异。
# 模型显著性检验与拟合优度
F 检验:
用于检验模型整体的显著性,即自变量是否至少有一个对因变量有显著影响。
多重检验系数(R2):
用于衡量模型的拟合优度,即自变量解释了因变量变异的百分比。
R2=rY,Y^2=1−SSTSSE
R2 也可以通过 F 统计量来计算:
F=1−R2R2p−1n−p
调整的 R2(Ra2):
考虑到自变量数量的影响,对 R2 进行调整。
Ra2=1−MSTMSE=1−n−pn−1SSTSSE