# 层次模型概述

层次模型,或称分层模型,是一种贝叶斯统计模型,常用于处理具有分层结构的数据。它通过引入超参数来描述参数的先验分布,从而在不同组之间共享信息。

分析步骤:

  1. 定义模型结构:

    • 似然: 确定数据 yy 的分布 p(yθ,ϕ)p(y|\theta, \phi)。通常,数据 yy 属于不同的组,每组数据 yjy_j 依赖于各自的参数 θj\theta_j
    • 参数分布: 定义各组参数 θj\theta_j 的先验分布 p(θϕ)p(\theta|\phi),该分布依赖于超参数 ϕ\phi。这使得参数 θ\theta 之间通过 ϕ\phi 相互关联,实现了信息共享。
    • 超参数先验: 为超参数 ϕ\phi 赋予一个先验分布 p(ϕ)p(\phi)
  2. 写出联合后验分布:
    联合后验分布是模型中所有参数和超参数的联合概率,它与先验分布和似然的乘积成正比:

    p(θ,ϕy)p(ϕ)p(θϕ)p(yθ,ϕ)=p(ϕ)p(θϕ)p(yθ)=p(ϕ)p(θϕ)ip(yiθi)p\bigl(\vec{\theta},\phi|y\bigr) \propto p(\phi)p\bigl(\vec{\theta}\bigr|\phi\bigr)p(y|\theta,\phi) \\ =p(\phi)p\bigl(\vec{\theta}\bigr|\phi\bigr)p(y|\theta) \\ =p(\phi)p\bigl(\vec{\theta}\bigr|\phi\bigl)\prod_{i}p(\vec{y_{i}}|\theta_{i})

  3. 推断后验分布:

    • 超参数的边缘后验:
      超参数 ϕ\phi 的边缘后验分布可以通过对联合后验分布中的参数 θ\vec{\theta} 进行积分得到:

      p(ϕy)=p(θ,ϕy)dθp(\phi|y)=\int p(\vec{\theta},\phi|y)d\vec{\theta}

      此外,也可以利用条件概率公式来推导:

      p(ϕy)=p(θ,ϕy)p(θϕ,y)p(\phi|y)=\frac{p(\vec{\theta},\phi|y)}{p(\vec{\theta}|\phi,y)}

      但在使用此方法时,需要计算 p(θϕ,y)p\bigl(\vec{\theta}|\phi,y\bigr) 的归一化常数,这通常需要利用已知的分布特性。
    • 参数的条件后验:
      在给定超参数 ϕ\phi 和数据 yy 的情况下,参数 θ\vec{\theta} 的条件后验分布为:

      p(θϕ,y)p(θ,ϕy)p\bigl(\vec{\theta}|\phi,y\bigr) \propto p\bigl(\vec{\theta},\phi|y\bigr)


# 超参数先验的选取

选择合适的超参数先验是层次模型建模的关键。

  • 保证边缘后验的合理性: 所选取的先验应确保超参数的边缘后验分布 p(ϕy)p(\phi|y) 是有意义的,即其积分有限。在检查先验分布时,需要特别关注其在无穷大处以及其他特定点(例如边界点)的行为,以避免积分发散。
  • 参数变换: 对于具有范围限制的超参数,可以通过变换将其映射到 (,+)(-\infty, +\infty) 的实数范围,从而更容易地赋予先验分布。
    • 对于范围在 (0,+)(0, +\infty) 的超参数,可以使用对数变换:log(ϕ)\log(\phi)
    • 对于范围在 (0,1)(0, 1) 的超参数,可以使用 Logit 变换:logit(ϕ)=logϕ1ϕ\text{logit}(\phi) = \log \frac{\phi}{1-\phi}
  • 赋予可解释的先验: 可以对超参数进行进一步分解,并为每个部分赋予独立的先验,以增强模型的可解释性。例如,可以分别对先验均值和先验样本量赋予独立的先验分布。

# 可交换性

定义:

可交换性(Exchangeability)是指在多组参数或数据中,它们的联合分布在任意两个参数或数据进行交换后保持不变。

p(,θi,,θj,)=p(,θj,,θi,), i,jp(\cdots, \theta_i, \cdots, \theta_j, \cdots) = p(\cdots, \theta_j, \cdots, \theta_i, \cdots),~\forall i, j

可交换性与独立性:

  • 独立性比可交换性更强。如果一组随机变量是独立的,那么它们一定是可交换的。
  • 反之则不然。可交换性意味着每个参数的边缘分布 p(θj)p(\theta_j) 相同,但不一定独立。这是因为它们可能通过一个共同的超参数相互关联。
  • De Finetti 定理:此定理揭示了可交换性与独立性之间的联系。当参数数量 JJ 趋于无穷大时,任何适当的可交换分布 (θ1,,θJ)(\theta_1, \dots, \theta_J) 都可以表示为一组独立同分布(i.i.d.)变量的混合分布:

    p(θϕ)=j=1Jp(θjϕ)p(\theta|\phi)=\prod_{j=1}^{J}p(\theta_{j}|\phi)

    这正是层次模型的基础。

对层次建模的影响:

  • 对称性: 在层次建模中,如果除了数据 yy 之外,没有其他信息可以用来区分、排序或分组各个参数 θj\theta_j,那么在先验分布中必须假设这些参数是对称的,即它们是可交换的。
  • 非对称性: 如果存在可区分的信息,则不应假设参数可交换,并应在先验分布中反映这种非对称性。

# 后验预测分布

后验预测分布用于对新数据或新组进行预测。其计算过程是边缘化(积分)模型中的所有参数和超参数。

对已有组的参数和预测进行推断:

  • 已有组中某组的参数后验边缘分布:

    p(θjy)=p(θj,ϕy)dϕ=p(θjϕ,yj)p(ϕy)dϕ=Eϕyp(θjϕ,yj)\begin{align*} p(\theta_j|y) &= \int p(\theta_j, \phi|y) d\phi \\ &=\int p(\theta_j|\phi, y_j) p(\phi|y)d\phi \\ &=\operatorname{E}_{\phi|y} p(\theta_j|\phi, y_j) \end{align*}

  • 已有组中某组的预测后验分布:
    对已有组中的新数据 y~j\tilde{y}_j 进行预测:

    p(y~jy)=p(y~j,θ,ϕy)dθdϕ=p(y~jθj)p(θjϕ,yj)p(ϕy)dθjdϕ=EϕyEθjϕ,yjp(y~jθj)\begin{align*} p(\tilde{y}_j|y) &= \int p(\tilde{y}_j, \vec{\theta}, \phi | y) d\vec{\theta} d\phi \\ &=\int p(\tilde{y}_j|\theta_j) p(\theta_j|\phi, y_j) p(\phi|y)d\theta_jd\phi \\ &=\operatorname{E}_{\phi|y}\operatorname{E}_{\theta_j|\phi, y_j} p(\tilde{y}_j|\theta_j) \end{align*}

    注意: p(y~jθj,yj)p(\tilde{y}_j|\theta_j, y_j)yjy_j 无关,因为 y~j\tilde{y}_j 是在给定参数 θj\theta_j 后的新样本,与同组已有的 yjy_j 相互独立。然而,p(θjϕ,yj)p(\theta_j|\phi, y_j) 依赖于 yjy_j,因为 yjy_j 提供了关于 θj\theta_j 的信息。

对新组的参数和预测进行推断:

  • 新组的参数后验边缘分布:
    对于一个新的、没有数据的组,其参数 θnew\theta_{new} 的后验分布:

    p(θnewy)=p(θnew,ϕy)dϕ=p(θnewϕ)p(ϕy)dϕ=Eϕyp(θnewϕ)\begin{align*} p(\theta_{new}|y) &= \int p(\theta_{new}, \phi|y) d\phi \\ &= \int p(\theta_{new}|\phi) p(\phi|y)d\phi \\ &= \operatorname{E}_{\phi|y}p(\theta_{new}|\phi) \end{align*}

    注意: p(θnewϕ,y)p(\theta_{new}|\phi,y)yy 无关,因为 θnew\theta_{new} 代表了与现有数据 yy 同簇但不同组的参数,在给定超参数 ϕ\phi 后,与 yy 相互独立。

  • 新组的预测后验分布:
    对新组的新数据 y~new\tilde{y}_{new} 进行预测:

    p(y~newy)=p(y~new,θ,ϕy)dθdϕ=p(y~newθnew)p(θnewϕ)p(ϕy)dθnewdϕ=EϕyEθnewϕp(y~newθnew)\begin{align*} p(\tilde{y}_{new}|y) &= \int p(\tilde{y}_{new}, \vec{\theta}, \phi|y) d\vec{\theta} d\phi \\ &=\int p(\tilde{y}_{new}|\theta_{new}) p(\theta_{new}|\phi)p(\phi|y) d\theta_{new} d\phi \\ &=\operatorname{E}_{\phi|y}\operatorname{E}_{\theta_{new}|\phi}p(\tilde{y}_{new}|\theta_{new}) \end{align*}