# 联合分布采样
有多种方法可以从联合分布中进行采样,主要包括:
-
ECDF (经验累积分布函数):
F^(x,y)=m1i=1∑mI(xi≤x,yi≤y)→F(x,y)
当样本量 m 趋近于无穷时,经验累积分布函数 F^(x,y) 会收敛到真实的累积分布函数 F(x,y)。
-
离散网格采样法:
该方法适用于维度较低的分布。具体步骤如下:
- 确定范围与网格划分:选择一个足以覆盖大部分概率空间的范围,并将其划分为细密的网格。
- 计算网格概率:将每个网格中心的概率密度 p(α,β∣y) 作为该网格的采样概率,并进行归一化。
- 边缘采样:将所有网格的概率求和,计算出边缘概率 p(α∣y),并基于该分布对 α 进行采样。
- 条件采样:对每个 α 网格,将相应概率求和,计算出条件概率 p(β∣α,y),并基于此对 β∣α 进行采样。
- 增加扰动:在采样的 α 和 β 值上,增加一个零均值且恰好覆盖该网格的随机扰动,以模拟连续分布。
# 后验分布的正态近似
当样本量足够大时,后验分布通常可以近似为正态分布。
-
最大后验估计 (MAP)
最大后验估计 θ^ 是使对数后验概率达到最大值的参数值,即:
[dθdlogp(θ∣y)]θ=θ^=0
-
泰勒展开
对数后验概率 logp(θ∣y) 在 θ^ 附近进行二阶泰勒展开,可得:
logp(θ∣y)=logp(θ^∣y)+21(θ−θ^)T[dθ2d2logp(θ∣y)]θ=θ^(θ−θ^)+⋯
忽略高阶项后,后验分布近似为一个与参数 θ 相关的二次函数。
-
渐近正态近似
从泰勒展开结果可以看出,后验分布 p(θ∣y) 可以近似为一个正态分布:
p(θ∣y)≈N(θ^,[I(θ^)]−1)
其中,I(θ) 是负的对数后验概率的二阶导数,即信息矩阵:
I(θ)=−∇θ2logp(θ∣y)
-
评估与注意
- 在低维参数空间中,正态近似的精度更高。值得注意的是,联合正态分布的边缘分布是正态的,但反之不成立。
- 通过对参数进行变换,可以显著提高正态近似的准确性。在有限样本量的情况下,不同参数化方式的近似精度可能存在较大差异。
# 贝叶斯大样本理论
贝叶斯大样本理论研究当样本量趋于无穷时,后验分布的收敛性质。
# KL 信息 (Kullback–Leibler Divergence)
KL 信息用于衡量两个概率分布之间的差异。假设真实的数据分布为 f(y),模型分布为 p(y∣θ),则 KL 信息为:
H(θ)=Ef[log(p(y∣θ)f(y))]=∫log(p(y∣θ)f(y))f(y)dy
根据吉布斯不等式,KL 信息恒为非负,且在 θ 等于真实参数 θ0 时达到最小值 0。
# 离散参数空间的收敛性引理
若参数空间是有限的,且真实参数 θ0 的先验概率 P(θ=θ0)>0,那么当样本量 n→∞ 时,后验概率 P[θ=θ0∣y] 将收敛到 1。
# 连续参数空间的收敛性引理
若参数空间是一个有界闭集,A 是一个包含真实参数 θ0 的开集,且先验 P(θ∈A)>0,那么当 n→∞ 时,后验概率 P[θ∈A∣y] 将收敛到 1。
# 结论
- 如果模型中存在一个参数 θ 使得模型分布 p(y∣θ) 与真实数据分布 f(y) 完全一致,即 p(y∣θ)=f(y),那么后验众数 θ^ 将收敛到该真实参数 θ0。
- 如果模型本身无法完全描述真实分布,那么后验众数 θ^ 将收敛到使得 p(y∣θ) 与 f(y) 最接近的参数值 θ0。
# 贝叶斯与频率学派的渐近正态性比较
# 贝叶斯渐近正态性
[I(θ^)]1/2(θ−θ^)∣y∼N(0,I)
- 随机变量:参数 θ 被视为随机变量。
- 固定值:观测到的数据 y 和基于此数据计算的最大后验估计 θ^ 是固定值。
- 本质:描述了给定观测数据下,参数 θ 的后验分布形态。
# 频率学派渐近正态性
[I(θ^)]1/2(θ^−θ0)∣θ0∼N(0,I)
- 随机变量:最大似然估计 θ^ 被视为随机变量,因为它依赖于样本的随机性。
- 固定值:真实的参数 θ0 是一个固定但未知的常量。
- 本质:描述了当真实参数 θ0 固定时,重复采样并计算出的估计量 θ^ 的抽样分布形态。