# 线性回归模型

线性回归模型建立在一系列基本假设之上,这些假设包括:线性性、独立性、正态性和恒定方差。

# 模型定义与矩阵形式

线性回归模型可以表示为:

yiN(β1xi1++βkxik,σ2)y_i\sim N(\beta_1x_{i1}+\cdots+\beta_kx_{ik},\sigma^2)

其中,xi1=1x_{i1}=1β1\beta_1 是截距项。

其矩阵形式为:

yn×1N(Xn×kβk×1,σ2In×n)y_{n\times1}\sim N(X_{n\times k}\beta_{k\times1},\sigma^2I_{n\times n})

# 基本假设

在贝叶斯框架下,我们需要对模型参数进行假设。我们假设模型参数 θ\theta 和自变量 XX 的分布参数 ψ\psi 是独立的,即 p(ψ,θX,y)=p(ψX)p(θX,y)p(\psi,\theta\mid X,y) = p(\psi\mid X)p(\theta\mid X,y)

我们的主要目标是推断参数 θ\theta,因此,我们主要关注其后验分布 p(θX,y)p(yX,θ)p(θ)p(\theta\mid X,y) \propto p(y\mid X,\theta)p(\theta)。为简化记号,在后续讨论中将省略条件 XX

# 经典回归结果

经典的频率学派线性回归结果为:

  • β\beta 的最大似然估计(MLE)

    β^MLE=(XTX)1XTy\hat{\beta}_{MLE}=(X^TX)^{-1}X^Ty

  • β^\hat{\beta} 的样本分布

    β^tnk(β,s2(XTX)1)\hat{\beta}\sim t_{n-k}(\beta,s^2(X^TX)^{-1})

    其中,s2=1nk(YXβ^)T(YXβ^)s^2=\frac{1}{n-k}(Y-X\hat{\beta})^T(Y-X\hat{\beta})

  • s2s^2 的样本分布

    (nk)s2σ2χnk2, 或 1s2Invχ2(nk,σ2)\frac{(n-k)s^2}{\sigma^2}\sim\chi_{n-k}^2,~或~\frac{1}{s^2}\sim Inv-\chi^2(n-k,\sigma^{-2})


# 贝叶斯线性回归

贝叶斯方法的核心在于结合先验分布和似然函数来获得参数的后验分布。

# 无信息先验(Non-informative Prior)

无信息先验是一种常用的先验选择,它对参数不施加过多约束,旨在让数据说话。

  • 先验形式

    p(β,σ2)1/σ2p(\beta,\sigma^2)\propto 1/\sigma^2

  • 后验分布
    后验分布 p(β,σ2y)p(\beta,\sigma^2\mid y) 可以分解为条件后验分布:

    • β\beta 的条件后验分布

      βσ2,yN(β^,σ2Vβ)\beta\mid \sigma^2,y\sim N(\hat{\beta}, \sigma^2V_\beta)

    • σ2\sigma^2 的边际后验分布

      σ2yInvχ2(nk,s2)\sigma^2\mid y\sim Inv-\chi^2(n-k,s^2)

    • β\beta 的边际后验分布

      βytnk(β^,s2Vβ)\beta\mid y\sim t_{n-k}(\hat{\beta},s^2V_\beta)

    其中,β^=(XTX)1XTy\hat{\beta}=(X^TX)^{-1}X^TyVβ=(XTX)1V_\beta=(X^TX)^{-1}s2=1nk(yXβ^)T(yXβ^)s^2=\frac{1}{n-k}(y-X\hat{\beta})^T(y-X\hat{\beta})

    注意:要求 n>kn>krank(X)=krank(X)=k

# 共轭先验(Conjugate Prior)

共轭先验的优点是能使后验分布与先验分布属于同一族,从而简化计算。

  • 先验形式

    βσ2N(m0,σ2C0), σ2Invχ2(v0,s02)\beta\mid\sigma^2\sim N(m_0,\sigma^2C_0),~\sigma^2\sim Inv-\chi^2(v_0,s_0^2)

  • 后验分布

    βσ2,yN(mn,σ2Cn), σ2yInvχ2(vn,sn2)\beta\mid\sigma^2,y\sim N(m_n,\sigma^2C_n),~\sigma^2\mid y\sim Inv-\chi^2(v_n,s_n^2)

    其中:

    mn=m0+C0XT(XC0XT+I)1(yXm0)Cn=C0C0XT(XC0XT+I)1XC0vn=v0+nvnsn2=v0s02+(yXm0)T(XC0XT+I)1(yXm0)m_n=m_0+C_0X^T(XC_0X^T+I)^{-1}(y-Xm_0) \\ C_n=C_0-C_0X^T(XC_0X^T+I)^{-1}XC_0 \\ v_n=v_0+n \\ v_ns_n^2=v_0s_0^2+(y-Xm_0)^T(XC_0X^T+I)^{-1}(y-Xm_0)


# 后验仿真与预测

当后验分布没有解析解时,可以通过仿真(如 MCMC)从后验分布中抽样来获得参数或感兴趣量的后验信息。

# 参数的联合后验拆分与仿真流程

联合后验分布 p(β,σ2y)p(\beta,\sigma^2\mid y) 可以拆分为条件后验分布 p(βσ2,y)p(σ2y)p(\beta\mid\sigma^2,y)p(\sigma^2\mid y)。因此,仿真流程如下:

  • σ2\sigma^2 的边际后验分布中抽样:(σ2)(j)p(σ2y)(\sigma^2)^{(j)}\sim p(\sigma^2\mid y)
  • β\beta 的条件后验分布中抽样:β(j)p(β(σ2)(j),y)\beta^{(j)}\sim p(\beta\mid(\sigma^2)^{(j)},y)

# 获取其他感兴趣量的后验分布

对于任意感兴趣的函数 γ=f(β,σ2)\gamma=f(\beta,\sigma^2),其后验分布可以通过对抽样结果进行变换来近似:

γ(j)=f(β(j),(σ2)(j))\gamma^{(j)}=f(\beta^{(j)},(\sigma^2)^{(j)})

# 重复数据与新数据的预测后验分布

  • 重复数据(yrepy^{rep}:重复数据可以看作是基于训练数据参数后验分布生成的新数据。
    • 仿真流程

      yrep(j)N(Xβ(j),σ2(j))y^{rep(j)}\sim N(X\beta^{(j)},\sigma^{2(j)})

  • 新数据(ynewy^{new}:与重复数据类似,但需要使用新的自变量 XnewX^{new}
    • 仿真流程

      ynew(j)N(Xnewβ(j),σ2(j))y^{new(j)}\sim N(X^{new}\beta^{(j)},\sigma^{2(j)})

    • 可解析结果(以无信息先验为例)ynewy^{new} 的预测后验分布是 tt 分布,这与频率学派的预测区间结果等价。

      y~ytnk(X~β^,(I+X~VβX~T)s2)\tilde{y}\mid y\sim t_{n-k}(\tilde{X}\hat{\beta},(I+\tilde{X}V_\beta\tilde{X}^T)s^2)

      该分布的维度与 X~\tilde{X} 的行数相同。

# β 的其他先验选择

# Shrinkage 先验

Shrinkage 先验旨在通过对参数施加先验约束来防止过拟合,类似于频率学派的正则化方法。

  • 贝叶斯岭回归
    贝叶斯岭回归对应于对 β\beta 施加正态先验。

    • 先验

      βσN(0,c0σ2I)\beta\mid\sigma\sim N(0,c_0\sigma^2I)

    • 与传统岭回归的关系:贝叶斯岭回归的后验众数(MAP)等同于传统岭回归的参数估计值 β^R=(XTX+λI)1(XTy)\hat{\beta}^R=(X^TX+\lambda I)^{-1}(X^Ty),其中 λ=1/c0\lambda=1/c_0
  • 贝叶斯 Lasso
    贝叶斯 Lasso 对应于对 β\beta 施加拉普拉斯先验。

    • 先验

      βjσ2Laplace(λσ)\beta_j\mid\sigma^2\sim Laplace(\frac{\lambda}{\sigma})

    • 与传统 Lasso 的关系:贝叶斯 Lasso 的后验众数(MAP)等同于传统 Lasso 的参数估计值。
    • 优点:Lasso 具有参数选择的作用,容易使某些参数变为 0。
  • Horseshoe 先验
    Horseshoe 先验通过对参数施加柯西(Cauchy)分布族先验来实现更强的收缩效应。

    • 优点
      • 对于强信号:具有更长的“多项式尾部”,对强信号的收缩较小。
      • 对于弱信号:在零附近具有无限高的尖峰,对零回归系数的收缩更大。

# Zellner's g-prior

Zellner's g-prior 是一种特殊形式的共轭先验,它以设计矩阵 XX 的形式作为先验方差。

  • 先验形式

    βσ2N(b0,gσ2(XTX)1)\beta\mid\sigma^2\sim N(b_0,g\sigma^2(X^TX)^{-1})

  • 后验期望

    E[βσ2,y]=1g+1b0+gg+1β^E[\beta\mid\sigma^2,y]=\frac{1}{g+1}b_0+\frac{g}{g+1}\hat{\beta}

  • 优点
    • 先验信息通过 XX 的形式反映。
    • 模型具有简单的解析解。
    • 所有线性回归模型只有一个自由参数 gg,便于模型比较。
  • gg 的选择gg 可以根据经验设定(如 g=1g=1g=ng=n),也可以通过最大化边际似然来选择。

# 贝叶斯模型比较

贝叶斯模型比较通常使用贝叶斯因子(Bayes Factor),它反映了不同模型在解释数据上的相对优势。

BF(H2;H1)=p(yH2)p(yH1)=p(θ2H2)p(yθ2,H2)dθ2p(θ1H1)p(yθ1,H1)dθ1BF(H_2;H_1)=\frac{p(y\mid H_2)}{p(y\mid H_1)}=\frac{\int p(\theta_2\mid H_2)p(y\mid\theta_2,H_2)d\theta_2}{\int p(\theta_1\mid H_1)p(y\mid\theta_1,H_1)d\theta_1}

贝叶斯因子是两个模型下边际似然的比值。