# 符号表示与模型假设
# 符号表示
- Yijk:在因子 A 的第 i 个水平和因子 B 的第 j 个水平组成的单元格(cell)中,第 k 个观测值。
- nij:单元格 (i,j) 的样本量。
# 模型假设
双因子方差分析(ANOVA)模型通常基于以下假设:
- 独立同分布:所有观测值是独立的。
- 正态性:每个单元格内的观测值服从正态分布。
- 同方差性:所有单元格的总体方差是相等的,即 σ2。
- 平衡设计:每个单元格的样本量相等,即 nij=n。
- 期望:观测值的期望只取决于因子 A 和因子 B 的水平组合。
# 两种模型及其参数
# Cell Means Model(单元格均值模型)
该模型直接关注每个单元格的总体均值 μij。
-
模型公式:
Yijk=μij+εijk
其中,εijk 是误差项,服从正态分布 N(0,σ2)。
-
参数估计:
- 单元格均值 μij 的估计量为样本均值:
μ^ij=Yij.=n1k=1∑nYijk
- 总体方差 σ2 的估计量为所有单元格内方差的加权平均值:
σ^2=s2=∑i,j(nij−1)∑i,j(nij−1)sij2=∑i,j(nij−1)∑i,j∑k(Yijk−Yij.)2
在平衡设计(nij=n)下,简化为:σ^2=ab(n−1)∑i,j∑k(Yijk−Yij.)2=MSE
其中,sij2=n−11∑k(Yijk−Yij.)2 是单元格 (i,j) 的样本方差。
# Factor Effects Model(因子效应模型)
该模型将单元格均值分解为总体均值、主效应和交互效应。
# 方差分析表与假设检验
# 双因子 ANOVA 表
变差来源(Source of Variation) |
平方和(Sum of Squares, SS) |
自由度(Degrees of Freedom, DF) |
均方(Mean Squares, MS) |
因子 A(Factor A) |
SSA=∑i,j,k(Yi..−Y...)2 |
a−1 |
MSA=SSA/(a−1) |
因子 B(Factor B) |
SSB=∑i,j,k(Y.j.−Y...)2 |
b−1 |
MSB=SSB/(b−1) |
交互作用(Interaction) |
SSAB=∑i,j,k(Yij.−Yi..−Y.j.+Y...)2 |
(a−1)(b−1) |
MSAB=SSAB/((a−1)(b−1)) |
误差(Error) |
SSE=∑i,j,k(Yijk−Yij.)2 |
ab(n−1) |
MSE=SSE/(ab(n−1)) |
总计(Total) |
SST=∑i,j,k(Yijk−Y...)2 |
abn−1 |
MST=SST/(abn−1) |
# 假设检验
通过 F 统计量来检验因子效应的显著性。
- 因子 A 主效应:
- H0:αi=0 for all i
- FA=MSA/MSE
- 因子 B 主效应:
- H0:βj=0 for all j
- FB=MSB/MSE
- 交互作用:
- H0:(αβ)ij=0 for all i,j
- FAB=MSAB/MSE
# 均方的期望值
- E(MSE)=σ2
- E(MSA)=σ2+a−1bn∑iαi2
- E(MSB)=σ2+b−1an∑jβj2
- E(MSAB)=σ2+(a−1)(b−1)n∑i,j(αβ)ij2
# 最小二乘均值(Least Squares Means, LS-Means)
- 最小二乘均值,也称为边际均值估计(Estimated Marginal Means, EMM),是对模型中特定水平组合的总体均值进行的估计。
- 平衡数据:在平衡设计中(即所有 nij 相等),LS-Means 就是每个单元格样本均值的非加权平均。
- 非平衡数据:LS-Means 主要用于处理非平衡数据,它通过模型调整来估计均值,从而抵消样本量不均衡带来的影响。
- R 语言中的
emmeans
包:
- 对于只有主效应的模型
lm(Y ~ X1 + X2)
,emmeans
计算的是主效应的边际均值。
- 对于包含交互效应的模型
lm(Y ~ X1 * X2)
,emmeans
计算的是每个单元格均值的非加权平均,然后基于这些均值来估计主效应的边际均值,从而提供更稳健的分析结果。