# 概述
层次线性模型,也称为混合效应模型(Mixed-effects Models)或多水平模型(Multilevel Models),是一种处理具有嵌套或分组结构的数据的统计模型。它能同时考虑数据中的固定效应和随机效应。
# 固定效应与随机效应
-
固定效应(Fixed Effects):指模型中因子的水平是固定的,我们只关心研究中包含的特定水平。这些因子提供了特定的信息,例如方差分析(ANOVA)模型:
yij=βi+ϵij, ϵij∼N(0,σ2)
其中,βi 代表固定的处理效应。
-
随机效应(Random Effects):指因子的水平是从一个更大的或无限的水平集合中随机选择的,这些水平本身不提供具体信息,但它们来自同一个分布。例如方差成分模型:
yij=β+bi+ϵij, bi∼N(0,σb2), ϵij∼N(0,σ2)
其中,bi 代表随机的组间差异。
# 为什么需要随机效应?
随机效应模型常用于处理具有层次结构或重复测量的数据,例如:
- 观察性研究:数据来自不同地点、不同时间、不同家庭或不同学校的样本组。
- 实验设计:实验中存在不同空间或时间尺度的伪重复。
- 时间伪重复:如重复测量设计。
- 空间伪重复:如嵌套设计或裂区实验。
# 随机效应模型
一个基本的随机效应模型可以表示为:
yij=β0+μj+eij
其中:
- yij 是第 j 组中第 i 个观测值。
- β0 是模型的固定效应部分,表示所有组的总体平均截距。
- μj 是随机效应部分,代表第 j 组相对于总体平均值的偏差,通常假设其服从正态分布 μj∼N(0,σμ2)。
- eij 是随机误差部分,代表组内误差,通常假设其服从正态分布 eij∼N(0,σe2)。
# 模型参数
- 固定效应参数:β0,需要进行估计。
- 随机效应参数:σμ2 和 σe2,它们是方差参数,也需要进行估计。
# 贝叶斯推断
在贝叶斯框架下,随机效应模型可以被视为一个层次模型。其参数的后验分布可以表示为:
p(β0,τj,στ2,σe2∣y)=p(y∣β0,τj,στ2,σe2)p(β0,τj,στ2,σe2)
这类模型的参数估计通常采用**马尔可夫链蒙特卡洛(MCMC)**方法,如 Gibbs 采样。
# 混合效应模型
混合效应模型是同时包含固定效应和随机效应的线性模型。
# 随机截距模型
随机截距模型是在简单回归模型中引入随机效应,允许不同分组有不同的截距。
yij=β0+β1xij+τj+eij
其中:
- β0 和 β1 是固定效应参数,表示总体截距和斜率。
- τj 是随机截距,代表第 j 组截距与总体截距的偏差,服从正态分布 τj∼N(0,στ2)。
- eij 是随机误差,服从正态分布 eij∼N(0,σe2)。
# 随机截距与斜率模型
这种模型允许不同分组有不同的截距和斜率。
yij=β0+β1xij+τ0j+τ1jxij+eij
其中:
- β0 和 β1 是固定效应部分,代表总体截距和斜率。
- τ0j 和 τ1j 是随机效应部分,代表第 j 组的随机截距和随机斜率,通常假设它们服从正态分布,τ0j∼N(0,στ02) 和 τ1j∼N(0,στ12)。
- eij 是随机误差,服从正态分布 eij∼N(0,σe2)。
# 混合效应模型的矩阵表示
混合效应模型的一般形式可以表示为矩阵形式:
y=Xβ+Zμ+e
其中:
- y 是已知的观测响应向量。
- X 是固定效应设计矩阵。
- β 是未知的固定效应向量。
- Z 是随机效应设计矩阵。
- μ 是未知的随机效应向量,通常假设 E(μ)=0,协方差 V(μ)=Ω。
- e 是未知的随机误差向量,通常假设 E(e)=0,协方差 V(e)=Λ。
由此可得 E(y)=Xβ,且 V(y)=ZΩZT+Λ=Σy。
在贝叶斯推断中,我们通常需要为固定效应 β 和随机效应的方差分量 Ω 设置先验分布。例如,可以假设:
β∼N(b,B), μ∼N(0,στ2Ig), στ2∝στ21
其中,b 和 B 是超参数,可以设置为无信息先验。在某些应用中,我们更关心随机效应而非固定效应。