# 线性回归模型
线性回归模型建立在一系列基本假设之上,这些假设包括:线性性、独立性、正态性和恒定方差。
# 模型定义与矩阵形式
线性回归模型可以表示为:
yi∼N(β1xi1+⋯+βkxik,σ2)
其中,xi1=1,β1 是截距项。
其矩阵形式为:
yn×1∼N(Xn×kβk×1,σ2In×n)
# 基本假设
在贝叶斯框架下,我们需要对模型参数进行假设。我们假设模型参数 θ 和自变量 X 的分布参数 ψ 是独立的,即 p(ψ,θ∣X,y)=p(ψ∣X)p(θ∣X,y)。
我们的主要目标是推断参数 θ,因此,我们主要关注其后验分布 p(θ∣X,y)∝p(y∣X,θ)p(θ)。为简化记号,在后续讨论中将省略条件 X。
# 经典回归结果
经典的频率学派线性回归结果为:
-
β 的最大似然估计(MLE):
β^MLE=(XTX)−1XTy
-
β^ 的样本分布:
β^∼tn−k(β,s2(XTX)−1)
其中,s2=n−k1(Y−Xβ^)T(Y−Xβ^)。
-
s2 的样本分布:
σ2(n−k)s2∼χn−k2, 或 s21∼Inv−χ2(n−k,σ−2)
# 贝叶斯线性回归
贝叶斯方法的核心在于结合先验分布和似然函数来获得参数的后验分布。
无信息先验是一种常用的先验选择,它对参数不施加过多约束,旨在让数据说话。
-
先验形式:
p(β,σ2)∝1/σ2
-
后验分布:
后验分布 p(β,σ2∣y) 可以分解为条件后验分布:
- β 的条件后验分布:
β∣σ2,y∼N(β^,σ2Vβ)
- σ2 的边际后验分布:
σ2∣y∼Inv−χ2(n−k,s2)
- β 的边际后验分布:
β∣y∼tn−k(β^,s2Vβ)
其中,β^=(XTX)−1XTy,Vβ=(XTX)−1,s2=n−k1(y−Xβ^)T(y−Xβ^)。
注意:要求 n>k 且 rank(X)=k。
# 共轭先验(Conjugate Prior)
共轭先验的优点是能使后验分布与先验分布属于同一族,从而简化计算。
-
先验形式:
β∣σ2∼N(m0,σ2C0), σ2∼Inv−χ2(v0,s02)
-
后验分布:
β∣σ2,y∼N(mn,σ2Cn), σ2∣y∼Inv−χ2(vn,sn2)
其中:
mn=m0+C0XT(XC0XT+I)−1(y−Xm0)Cn=C0−C0XT(XC0XT+I)−1XC0vn=v0+nvnsn2=v0s02+(y−Xm0)T(XC0XT+I)−1(y−Xm0)
# 后验仿真与预测
当后验分布没有解析解时,可以通过仿真(如 MCMC)从后验分布中抽样来获得参数或感兴趣量的后验信息。
# 参数的联合后验拆分与仿真流程
联合后验分布 p(β,σ2∣y) 可以拆分为条件后验分布 p(β∣σ2,y)p(σ2∣y)。因此,仿真流程如下:
- 从 σ2 的边际后验分布中抽样:(σ2)(j)∼p(σ2∣y)。
- 从 β 的条件后验分布中抽样:β(j)∼p(β∣(σ2)(j),y)。
# 获取其他感兴趣量的后验分布
对于任意感兴趣的函数 γ=f(β,σ2),其后验分布可以通过对抽样结果进行变换来近似:
γ(j)=f(β(j),(σ2)(j))
# 重复数据与新数据的预测后验分布
- 重复数据(yrep):重复数据可以看作是基于训练数据参数后验分布生成的新数据。
- 新数据(ynew):与重复数据类似,但需要使用新的自变量 Xnew。
- 仿真流程:
ynew(j)∼N(Xnewβ(j),σ2(j))
- 可解析结果(以无信息先验为例):ynew 的预测后验分布是 t 分布,这与频率学派的预测区间结果等价。
y~∣y∼tn−k(X~β^,(I+X~VβX~T)s2)
该分布的维度与 X~ 的行数相同。
# β 的其他先验选择
# Shrinkage 先验
Shrinkage 先验旨在通过对参数施加先验约束来防止过拟合,类似于频率学派的正则化方法。
-
贝叶斯岭回归:
贝叶斯岭回归对应于对 β 施加正态先验。
-
贝叶斯 Lasso:
贝叶斯 Lasso 对应于对 β 施加拉普拉斯先验。
-
Horseshoe 先验:
Horseshoe 先验通过对参数施加柯西(Cauchy)分布族先验来实现更强的收缩效应。
- 优点:
- 对于强信号:具有更长的“多项式尾部”,对强信号的收缩较小。
- 对于弱信号:在零附近具有无限高的尖峰,对零回归系数的收缩更大。
# Zellner's g-prior
Zellner's g-prior 是一种特殊形式的共轭先验,它以设计矩阵 X 的形式作为先验方差。
- 先验形式:
β∣σ2∼N(b0,gσ2(XTX)−1)
- 后验期望:
E[β∣σ2,y]=g+11b0+g+1gβ^
- 优点:
- 先验信息通过 X 的形式反映。
- 模型具有简单的解析解。
- 所有线性回归模型只有一个自由参数 g,便于模型比较。
- g 的选择:g 可以根据经验设定(如 g=1 或 g=n),也可以通过最大化边际似然来选择。
# 贝叶斯模型比较
贝叶斯模型比较通常使用贝叶斯因子(Bayes Factor),它反映了不同模型在解释数据上的相对优势。
BF(H2;H1)=p(y∣H1)p(y∣H2)=∫p(θ1∣H1)p(y∣θ1,H1)dθ1∫p(θ2∣H2)p(y∣θ2,H2)dθ2
贝叶斯因子是两个模型下边际似然的比值。