# 基本概念与方法
# 贝叶斯模型检查的核心问题
在贝叶斯分析中,模型检查旨在回答两个基本问题:
- 所使用的模型是否准确地描述了数据?
- 后验推断对模型假设的敏感度如何?
贝叶斯分析的一般流程包括:构建概率模型、计算参数的后验分布、评估模型对数据和先验知识的拟合程度,并据此改进模型。模型检查是这一流程中至关重要的一个环节。
# 敏感性分析
在实际科学问题中,可能存在多个合理的模型,它们都对数据有良好的拟合。这些模型可能在先验设定、抽样分布或包含的信息上存在显著差异。敏感性分析的核心在于评估,当使用不同的合理概率模型时,后验推断会发生多大变化。
一个理想化的模型检查方法是构建一个包含所有可能“真实”模型的综合联合分布(super-model)。然而,在实际应用中,构建一个能够囊括所有可能性和领域知识的 super-model 几乎是不可能且难以计算的,除非问题非常简单。因此,我们需要更实用的模型检查方法。
# 后验预测检验
后验预测检验(Posterior Predictive Checking) 是一种常用的模型检查方法。其基本思想是:从模型的后验预测分布中抽取模拟数据,然后将这些模拟样本与实际观测数据进行比较。如果模拟结果与观测数据之间存在系统性差异,则表明模型可能存在缺陷。
# 重复样本的生成
在后验预测检验中,我们基于后验预测分布 生成重复数据(replicated data) 。与 不同, 必须与训练数据 具有相同的样本大小、相同的协变量等。
# 后验预测 p 值(PPP)
后验预测 p 值是后验预测检验的一种量化指标,它用于衡量观测数据在模型下的极端程度。
后验预测 p 值 定义为:
其中, 是一个检验量(test statistic),用来衡量数据的某个特定特征。
与经典 p 值的区别:
经典的 p 值 基于固定的参数 ;而后验预测 p 值 则是在 的后验分布上进行积分,考虑了参数的不确定性。
# 仿真计算方法
后验预测 p 值通常通过仿真方法进行计算:
- 从后验分布 中抽取 个样本 。
- 对每个 ,从预测分布 中生成一个重复样本 。
- 使用以下公式估计 p 值:
# 检验量的选择原则
选择合适的检验量 是后验预测检验的关键。
- 一个模型可能在某些方面失效,因此可以选择多种检验量来评估不同类型的模型缺陷。
- 理想情况下,检验量应反映模型中与科学推断目标相关的特征。
- 检验量通常用于衡量模型未直接涉及的数据特征,例如样本的排序、残差与某个可能解释变量之间的相关性等。
# p 值的解读
- 当某个检验量的 p 值非常极端(接近 0 或 1)时,这表明如果模型是正确的,观测数据中出现这种模式的可能性很小,因此模型可能存在问题。
- 需要注意的是,后验预测 p 值不是模型正确的概率 ,它表示的是在给定数据集的情况下,某个检验量在重复数据中比观测数据更极端的概率。
- 与传统 p 值一样,后验预测 p 值表示的是统计显著性而非实际意义。模型中微小的改动可能导致 p 值发生巨大变化。
- 在模型检查中,我们关注的是模型的适用性局限,而非简单的“接受或拒绝”模型,因此在多重比较时,通常不需要进行 Bonferroni correction 等修正。
# 图形化后验预测检验
除了量化的 p 值,图形化方法是后验预测检验的有力工具。它能直观地展示模型与数据的差异。
# 图形展示方式
- 直接比较:将模拟数据与实际观测数据直接并排展示。
- 摘要比较:展示数据摘要(如均值、方差)或参数推断结果的比较。
- 残差图:展示残差或其他衡量模型与数据差异的图形。
# 典型图形化表达
- 散点图:将 作为 x 轴,将 作为 y 轴绘制散点图。如果模型正确,点应沿 对称分布。
- 差异/比值图:绘制 与 的差值或比值。如果模型正确,差异应围绕 0,比值应围绕 1。
# 常用检验量举例
- 拟合能力检验:使用 差异作为检验量,衡量观测值与预测均值之间的偏离程度。
- 正态性检验:通过比较标准化残差的顺序统计量与正态分布的分位数,来评估残差的正态性。
其中 是相对均值的残差的顺序统计量。
- 方差齐性检验:通过比较不同组别方差的最大值和最小值之比,来评估方差是否一致。
如果方差齐性成立,该比值不应显著大于 1。