9. MCMC理论与实践

# 马尔可夫链的收敛性

# 马尔可夫链简介

马尔可夫链是一个随机变量序列 $\theta^{(t)}$ ，其当前状态只依赖于前一个状态，即满足马尔可夫性质：

$p(\theta^{(t)}\mid \theta^{(t-1)},\cdots, \theta^{(0)})=p(\theta^{(t)}\mid \theta^{(t-1)})$

其中， $p$ 被称为转移分布。

马尔可夫链的状态空间是其所有可能状态的集合。对于有限状态的马尔可夫链，状态转移可以用状态转移矩阵 $P$ 来描述，其中 $p_{ij}$ 表示从状态 $i$ 转移到状态 $j$ 的概率。

当前状态向量： $\pi_i^{(t)}=P(\theta^{(t)}=i)$
状态转移方程： $\pi^{(t)}=\pi^{(t-1)}P=\pi^{(0)}P^t$

# 平稳分布与收敛条件

平稳分布（Stationary Distribution）是指马尔可夫链在经过足够长的时间后，其状态分布不再变化的分布，满足 $\pi = \pi P$ 。

为了确保马尔可夫链能够收敛到唯一的平稳分布，并让该平稳分布成为极限分布，需要满足以下条件：

不可约性（Irreducibility）：对于状态空间中的任意两个状态 $i$ 和 $j$ ，都存在一个时间步 $t_{ij}$ ，使得从状态 $i$ 转移到状态 $j$ 的概率大于 0，即 $P(\theta^{(t_{ij})}=j\mid\theta^{(0)}=i)>0$ 。不可约马尔可夫链意味着从任意状态出发，都可以到达任意其他状态。
非周期性（Aperiodicity）：状态 $i$ 的周期 $k_i$ 定义为从状态 $i$ 返回到自身所需时间步数的最大公约数， $k_i=gcd\{t:P(\theta^{(t)}=i\mid\theta^{(0)}=i)>0\}$ 。如果 $k_i=1$ ，则状态 $i$ 是非周期的。若马尔可夫链中所有状态都非周期，则称该链是非周期的。在不可约马尔可夫链中，所有状态的周期相同，因此只要一个状态是非周期的，整个链就是非周期的。
常返性（Recurrence）：
- 设 $T_i$ 是状态 $i$ 的首次返回时间。若 $P(T_i < \infty) = 1$ ，则状态 $i$ 是常返的。
- 若常返态 $i$ 的平均返回时间 $E[T_i]$ 有限，则称其为正常返的；否则为零常返的。
- 对不可约马尔可夫链，如果存在一个正常返（或零常返）的状态，则所有状态都正常返（或零常返）。
- 若马尔可夫链的状态 $i$ 是非周期的，那么 $\lim_{t \to \infty} \pi_i^{(t)} = 1/E[T_i]$ 。

结论：在有限状态空间中：

不可约马尔可夫链具有唯一的平稳分布 $\pi$ 。
如果不可约马尔可夫链同时也是非周期的，那么对于任意初始状态 $\pi^{(0)}$ ，它都会收敛到唯一的平稳分布 $\pi$ ，即 $\lim_{t \to \infty}\pi^{(t)}=\pi$ 。这种平稳分布也被称为极限分布。
如果不可约非周期马尔可夫链是正常返的，则它存在唯一的平稳分布 $\pi$ ，该分布也是极限分布，且 $\pi_i=1/E[T_i]$ 。

遍历性（Ergodicity）：如果一个马尔可夫链是不可约、非周期和正常返的，则称其为遍历的。遍历性是马尔可夫链收敛到唯一平稳分布并使其成为极限分布的充分条件。

对于连续状态空间的马尔可夫链，我们通常讨论其在特定集合上的概率。

示例：AR(1) 模型
AR(1) 模型是一个具有连续状态空间的马尔可夫链，其转移分布为：

$\theta^{(t)}=\mu+\rho(\theta^{(t-1)}-\mu)+\epsilon_t,~\epsilon_t\sim N(0,\sigma^2)$

即：

$\theta^{(t)}\mid\theta^{(t-1)}\sim N(\mu+\rho(\theta^{(t-1)}-\mu),\sigma^2)$

当 $|\rho|<1$ 时，该链是遍历的，因此具有平稳分布，且收敛于该平稳分布：

$\theta^{(t)}\sim N(\mu,\sigma^2/(1-\rho^2))$

# MCMC 的有效性验证

MCMC（Markov Chain Monte Carlo）方法的基本思想是：构造一个马尔可夫链，使其平稳分布为我们想要采样的目标分布 $p(\theta \mid y)$ 。当链收敛后，其产生的样本就近似于目标分布。

细致平衡条件（Detailed Balance Condition, DBC）：
如果转移核 $p(\phi \mid \theta)$ 满足：

$\pi(\theta)p(\phi\mid\theta)=\pi(\phi)p(\theta\mid\phi)$

则 $\pi(\theta)$ 是其平稳分布。DBC 提供了一种简便的方法来检查所构造的转移核是否合理。我们讨论过的 MCMC 技术，如吉布斯采样、Metropolis-Hastings 算法和 Metropolis-within-Gibbs 算法，都满足细致平衡条件，并且通常是不可约和非周期的。因此，它们都有唯一的平稳分布 $p(\theta \mid y)$ ，并能收敛到该分布。

# 马尔可夫链的构造与诊断

# 初始值选择

初始值的选择会影响 MCMC 采样的收敛速度。虽然理论上马尔可夫链最终会收敛到平稳分布，但如果初始值离目标分布很远，收敛会非常慢。

合理初值：任何不介意包含在样本中的点都是一个好的起点。

获得好初值的方法：

多点老化（Burn-in）：从多个不同的起始点开始采样，并丢弃开始的若干次迭代（例如，丢弃前 X 次迭代）。
从最大似然估计（MLE）开始： $\arg\max_\theta p(y \mid \theta)$ 。
从最大后验概率（MAP）开始： $\arg\max_\theta p(\theta \mid y)$ 。
选择多个起始点（例如 5-10 个）运行多条链，以确保覆盖整个样本空间。

# 样本大小与收敛诊断

为了确保 MCMC 采样的有效性，我们需要判断链是否已收敛以及需要多少有效样本。

有效样本量：通常 100-2000 个有效样本就足够了。如果需要考察极值，可能需要更多。

# Gelman-Rubin 势尺度缩减因子（Potential Scale Reduction Factor）

Gelman-Rubin 诊断用于判断多条马尔可夫链是否已收敛。其核心思想是比较链内方差与链间方差。

步骤：

选择 $m$ 个合理的初始值，运行 $m$ 条独立的马尔可夫链，每条链迭代 $n$ 次，得到参数样本 $\psi_{ij}$ 。
计算链内方差 $W$ $W$ 和链间方差 $B$ $B$ 。
- 单链均值： $\bar{\psi}_{.j}=\sum_{i=1}^n\psi_{ij}/n$
- 总体均值： $\bar{\psi}_{..}=\sum_{j=1}^m\bar{\psi}_{.j}/m$
- 单链方差： $s_j^2=\sum_{i=1}^n(\psi_{ij}-\bar{\psi}_{.j})^2/(n-1)$
- 链间方差： $B=\frac{n}{m-1}\sum_{j=1}^m (\bar{\psi}_{.j}-\bar{\psi}_{..})^2$
- 链内方差： $W=\frac{1}{m}\sum_{j=1}^ms_j^2$
计算估计量的边缘后验方差 $\widehat{Var}^+(\psi \mid y) = \frac{n-1}{n}W+\frac{1}{n}B$ 。
计算势尺度缩减因子 $\hat{R}_\psi = \sqrt{\frac{\widehat{Var}^+(\psi \mid y)}{W}}$ 。

判断：如果 $\hat{R}_\psi$ 接近 1（例如，小于 1.2），则可以认为链已收敛。

注意事项：

多峰分布：很小的 $\hat{R}_\psi$ 并不能绝对证明链已收敛。如果初始点不够分散，所有链可能都只探索了样本空间的一个子区域，特别是当目标分布是多峰时。
适用性：该方法基于均值和方差，更适用于近似正态分布的变量。对于非正态分布的变量，进行变换后再诊断效果更好（如对正值变量取对数）。

# Geweke 检验

Geweke 检验通过比较马尔可夫链首尾部分的均值来诊断收敛性。如果检验结果表明首尾两部分来自不同的分布，则可能需要丢弃更多的前段样本，以确保链的剩余部分已收敛。

# 有效样本量

MCMC 估计量是马尔可夫链产生的样本的均值。根据强大数定律（SLLN），在正则条件下，样本均值 $\hat{h}_T = \frac{1}{T}\sum_{t=1}^T h(\theta^{(t)})$ 会收敛到期望值 $E[h(\theta) \mid y]$ 。

根据中心极限定理（CLT），在强正则条件下，样本均值近似服从正态分布：

$\hat{h}_T\sim N(E[h(\theta)\mid y],~\sigma^2/T)$

其中， $\sigma^2$ 与样本的自相关性有关： $\sigma^2=Var(h(\theta)\mid y)\left(1+2\sum_{k=1}^\infty\rho_k\right)$ ， $\rho_k$ 是第 $k$ 个自相关系数。

有效样本量（Effective Sample Size, $n_{eff}$ ）考虑了样本的自相关性，它表示与独立同分布（i.i.d.）样本相比，MCMC 样本包含的独立信息量。

$n_{eff}=\frac{mn}{1+2\sum_{t=1}^\infty\rho_t}$

通常用估计的自相关系数 $\hat{\rho}_t$ 来近似计算：

$n_{eff}\approx\frac{mn}{1+2\sum_{t=1}^T\hat{\rho}_t}$

其中， $\hat{\rho}_t=1-\frac{V_t}{2\widehat{var}^+}$ ， $V_t=\frac{1}{m(n-t)}\sum_{j=1}^m\sum_{i=t+1}^n(\psi_{i,j}-\psi_{i-t,j})^2$ 。