# 联合分布采样

有多种方法可以从联合分布中进行采样,主要包括:

  1. ECDF (经验累积分布函数)

    F^(x,y)=1mi=1mI(xix,yiy)F(x,y){\hat{F}}(x,y)={\frac{1}{m}}\sum_{i=1}^{m}I(x_{i}\leq x,y_{i}\leq y)\to F(x,y)

    当样本量 mm 趋近于无穷时,经验累积分布函数 F^(x,y)\hat{F}(x,y) 会收敛到真实的累积分布函数 F(x,y)F(x,y)

  2. 离散网格采样法
    该方法适用于维度较低的分布。具体步骤如下:

    • 确定范围与网格划分:选择一个足以覆盖大部分概率空间的范围,并将其划分为细密的网格。
    • 计算网格概率:将每个网格中心的概率密度 p(α,βy)p(\alpha, \beta | y) 作为该网格的采样概率,并进行归一化。
    • 边缘采样:将所有网格的概率求和,计算出边缘概率 p(αy)p(\alpha | y),并基于该分布对 α\alpha 进行采样。
    • 条件采样:对每个 α\alpha 网格,将相应概率求和,计算出条件概率 p(βα,y)p(\beta | \alpha, y),并基于此对 βα\beta | \alpha 进行采样。
    • 增加扰动:在采样的 α\alphaβ\beta 值上,增加一个零均值且恰好覆盖该网格的随机扰动,以模拟连续分布。

# 后验分布的正态近似

当样本量足够大时,后验分布通常可以近似为正态分布。

  1. 最大后验估计 (MAP)
    最大后验估计 θ^\hat{\theta} 是使对数后验概率达到最大值的参数值,即:

    [ddθlogp(θy)]θ=θ^=0\left[{\frac{d}{d\theta}}\log p(\theta|y)\right]_{\theta=\hat{\theta}}=0

  2. 泰勒展开
    对数后验概率 logp(θy)\log p(\theta|y)θ^\hat{\theta} 附近进行二阶泰勒展开,可得:

    logp(θy)=logp(θ^y)+12(θθ^)T[d2dθ2logp(θy)]θ=θ^(θθ^)+\log p(\theta|y)=\log p({\hat{\theta}}|y)+{\frac{1}{2}}(\theta-{\hat{\theta}})^{T}\left[{\frac{d^{2}}{d\theta^{2}}}\log p(\theta|y)\right]_{\theta={\hat{\theta}}}(\theta-{\hat{\theta}})+\cdots

    忽略高阶项后,后验分布近似为一个与参数 θ\theta 相关的二次函数。

  3. 渐近正态近似
    从泰勒展开结果可以看出,后验分布 p(θy)p(\theta|y) 可以近似为一个正态分布:

    p(θy)N(θ^,[I(θ^)]1)p(\theta|y)\approx\mathrm{N}(\hat{\theta},[I(\hat{\theta})]^{-1})

    其中,I(θ)I(\theta) 是负的对数后验概率的二阶导数,即信息矩阵:

    I(θ)=θ2logp(θy)I(\theta)=-\,\nabla^2_{\theta}\log p(\theta|y)

  4. 评估与注意

    • 在低维参数空间中,正态近似的精度更高。值得注意的是,联合正态分布的边缘分布是正态的,但反之不成立。
    • 通过对参数进行变换,可以显著提高正态近似的准确性。在有限样本量的情况下,不同参数化方式的近似精度可能存在较大差异。

# 贝叶斯大样本理论

贝叶斯大样本理论研究当样本量趋于无穷时,后验分布的收敛性质。

# KL 信息 (Kullback–Leibler Divergence)

KL 信息用于衡量两个概率分布之间的差异。假设真实的数据分布为 f(y)f(y),模型分布为 p(yθ)p(y|\theta),则 KL 信息为:

H(θ)=Ef[log(f(y)p(yθ))]=log(f(y)p(yθ))f(y)dyH(\theta)=E_{f}\left[\log\left(\frac{f(y)}{p(y|\theta)}\right)\right]=\int\log\left(\frac{f(y)}{p(y|\theta)}\right)f(y)d y

根据吉布斯不等式,KL 信息恒为非负,且在 θ\theta 等于真实参数 θ0\theta_0 时达到最小值 0。

# 离散参数空间的收敛性引理

若参数空间是有限的,且真实参数 θ0\theta_0 的先验概率 P(θ=θ0)>0P(\theta=\theta_0)>0,那么当样本量 nn \rightarrow \infty 时,后验概率 P[θ=θ0y]P[\theta=\theta_0 | y] 将收敛到 1。

  • 证明思路:考虑任意一个非真实参数 θθ0\theta \neq \theta_0。我们分析其与真实参数的对数后验比值:

    log(p(θy)p(θ0y))=log(p(θ)p(θ0))+i=1nlog(p(yiθ)p(yiθ0))\log\left(\frac{p(\theta|y)}{p(\theta_{0}|y)}\right)=\log\left(\frac{p(\theta)}{p(\theta_{0})}\right)+\sum_{i=1}^{n}\log\left(\frac{p(y_{i}|\theta)}{p(y_{i}|\theta_{0})}\right)

    • 等式右侧的第一项为先验比值,是一个有限常数。
    • 等式右侧的第二项为对数似然比之和。其期望值为:

      Ef[log(p(yiθ)p(yiθ0))]=H(θ0)H(θ)E_{f}\left[\log\left(\frac{p(y_{i}|\theta)}{p(y_{i}|\theta_{0})}\right)\right]=H(\theta_{0})-H(\theta)

      根据 KL 信息性质,该期望恒为负值。
    • 因此,当 nn \rightarrow \infty 时,根据大数定律,第二项将趋近于 -\infty
  • 结论:由于右侧趋近于 -\infty,对数后验比值也趋近于 -\infty,这表明 p(θy)0p(\theta|y) \rightarrow 0,而 p(θ0y)1p(\theta_{0}|y) \rightarrow 1

# 连续参数空间的收敛性引理

若参数空间是一个有界闭集,AA 是一个包含真实参数 θ0\theta_0 的开集,且先验 P(θA)>0P(\theta \in A)>0,那么当 nn \rightarrow \infty 时,后验概率 P[θAy]P[\theta \in A | y] 将收敛到 1。

# 结论

  • 如果模型中存在一个参数 θ\theta 使得模型分布 p(yθ)p(y|\theta) 与真实数据分布 f(y)f(y) 完全一致,即 p(yθ)=f(y)p(y|\theta)=f(y),那么后验众数 θ^\hat{\theta} 将收敛到该真实参数 θ0\theta_0
  • 如果模型本身无法完全描述真实分布,那么后验众数 θ^\hat{\theta} 将收敛到使得 p(yθ)p(y|\theta)f(y)f(y) 最接近的参数值 θ0\theta_0

# 贝叶斯与频率学派的渐近正态性比较

# 贝叶斯渐近正态性

[I(θ^)]1/2(θθ^)yN(0,I)[{\cal I}(\hat{\theta})]^{1/2}(\theta-\hat{\theta})\mid y\sim\mathrm{N}(0,I)

  • 随机变量:参数 θ\theta 被视为随机变量。
  • 固定值:观测到的数据 yy 和基于此数据计算的最大后验估计 θ^\hat{\theta} 是固定值。
  • 本质:描述了给定观测数据下,参数 θ\theta 的后验分布形态。

# 频率学派渐近正态性

[I(θ^)]1/2(θ^θ0)θ0N(0,I)[{\cal I}(\hat{\theta})]^{1/2}(\hat{\theta}-\theta_0)\mid \theta_0\sim\mathrm{N}(0,I)

  • 随机变量:最大似然估计 θ^\hat{\theta} 被视为随机变量,因为它依赖于样本的随机性。
  • 固定值:真实的参数 θ0\theta_0 是一个固定但未知的常量。
  • 本质:描述了当真实参数 θ0\theta_0 固定时,重复采样并计算出的估计量 θ^\hat{\theta} 的抽样分布形态。