# 符号表示与模型假设

# 符号表示

  • YijkY_{ijk}:在因子 A 的第 ii 个水平和因子 B 的第 jj 个水平组成的单元格(cell)中,第 kk 个观测值。
  • nijn_{ij}:单元格 (i,j)(i, j) 的样本量。

# 模型假设

双因子方差分析(ANOVA)模型通常基于以下假设:

  1. 独立同分布:所有观测值是独立的。
  2. 正态性:每个单元格内的观测值服从正态分布。
  3. 同方差性:所有单元格的总体方差是相等的,即 σ2\sigma^2
  4. 平衡设计:每个单元格的样本量相等,即 nij=nn_{ij} = n
  5. 期望:观测值的期望只取决于因子 A 和因子 B 的水平组合。

# 两种模型及其参数

# Cell Means Model(单元格均值模型)

该模型直接关注每个单元格的总体均值 μij\mu_{ij}

  • 模型公式

    Yijk=μij+εijkY_{ijk} = \mu_{ij} + \varepsilon_{ijk}

    其中,εijk\varepsilon_{ijk} 是误差项,服从正态分布 N(0,σ2)N(0, \sigma^2)

  • 参数估计

    • 单元格均值 μij\mu_{ij} 的估计量为样本均值:

      μ^ij=Yij.=1nk=1nYijk\hat\mu_{ij} = \overline{Y}_{ij.} = \frac{1}{n}\sum_{k=1}^{n} Y_{ijk}

    • 总体方差 σ2\sigma^2 的估计量为所有单元格内方差的加权平均值:

      σ^2=s2=i,j(nij1)sij2i,j(nij1)=i,jk(YijkYij.)2i,j(nij1)\hat\sigma^2 = s^2 = \frac{\sum_{i,j}(n_{ij} - 1)s_{ij}^2}{\sum_{i,j}(n_{ij} - 1)} = \frac{\sum_{i,j} \sum_{k} (Y_{ijk} - \overline{Y}_{ij.})^2}{\sum_{i,j}(n_{ij}-1)}

      在平衡设计(nij=nn_{ij}=n)下,简化为:

      σ^2=i,jk(YijkYij.)2ab(n1)=MSE\hat\sigma^2 = \frac{\sum_{i,j} \sum_{k} (Y_{ijk} - \overline{Y}_{ij.})^2}{ab(n-1)} = \text{MSE}

      其中,sij2=1n1k(YijkYij.)2s_{ij}^2 = \frac{1}{n-1}\sum_{k} (Y_{ijk} - \overline{Y}_{ij.})^2 是单元格 (i,j)(i, j) 的样本方差。

# Factor Effects Model(因子效应模型)

该模型将单元格均值分解为总体均值、主效应和交互效应。

  • 模型公式

    μij=μ+αi+βj+(αβ)ij\mu_{ij} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij}

    其中:

    • μ\mu 是总体均值。
    • αi\alpha_i 是因子 A 在第 ii 个水平上的主效应。
    • βj\beta_j 是因子 B 在第 jj 个水平上的主效应。
    • (αβ)ij(\alpha\beta)_{ij} 是因子 A 和 B 在各自水平上的交互效应。
  • 约束条件
    为了使模型参数唯一可解,通常会施加约束条件。

    • 通常约束

      i=1aαi=0,j=1bβj=0\sum_{i=1}^{a} \alpha_i = 0, \quad \sum_{j=1}^{b} \beta_j = 0

      i=1a(αβ)ij=0 for all j,j=1b(αβ)ij=0 for all i\sum_{i=1}^{a} (\alpha\beta)_{ij} = 0 \text{ for all } j, \quad \sum_{j=1}^{b} (\alpha\beta)_{ij} = 0 \text{ for all } i

    • R 语言约束(处理对比):

      α1=0,β1=0\alpha_1 = 0, \quad \beta_1 = 0

      (αβ)1j=0 for all j,(αβ)i1=0 for all i(\alpha\beta)_{1j} = 0 \text{ for all } j, \quad (\alpha\beta)_{i1} = 0 \text{ for all } i

  • 参数解释

    • 总体均值μ=1abi,jμij\mu = \frac{1}{ab}\sum_{i,j} \mu_{ij}
    • 主效应
      • 因子 A:αi=μi.μ\alpha_i = \mu_{i.} - \mu, 其中 μi.=1bjμij\mu_{i.} = \frac{1}{b}\sum_{j} \mu_{ij}
      • 因子 B:βj=μ.jμ\beta_j = \mu_{.j} - \mu, 其中 μ.j=1aiμij\mu_{.j} = \frac{1}{a}\sum_{i} \mu_{ij}
    • 交互效应

      (αβ)ij=μij(μ+αi+βj)=μijμi.μ.j+μ(\alpha\beta)_{ij} = \mu_{ij} - (\mu + \alpha_i + \beta_j) = \mu_{ij} - \mu_{i.} - \mu_{.j} + \mu

  • 参数估计

    • μ^=Y...=1abni,j,kYijk\hat{\mu} = \overline{Y}_{...} = \frac{1}{abn}\sum_{i,j,k} Y_{ijk}
    • α^i=Yi..Y...\hat{\alpha}_i = \overline{Y}_{i..} - \overline{Y}_{...}
    • β^j=Y.j.Y...\hat{\beta}_j = \overline{Y}_{.j.} - \overline{Y}_{...}
    • (αβ^)ij=Yij.Yi..Y.j.+Y...(\hat{\alpha\beta})_{ij} = \overline{Y}_{ij.} - \overline{Y}_{i..} - \overline{Y}_{.j.} + \overline{Y}_{...}

# 方差分析表与假设检验

# 双因子 ANOVA 表

变差来源(Source of Variation) 平方和(Sum of Squares, SS) 自由度(Degrees of Freedom, DF) 均方(Mean Squares, MS)
因子 A(Factor A) SSA=i,j,k(Yi..Y...)2SSA = \sum_{i,j,k}(\overline{Y}_{i..} - \overline{Y}_{...})^2 a1a-1 MSA=SSA/(a1)MSA = SSA / (a-1)
因子 B(Factor B) SSB=i,j,k(Y.j.Y...)2SSB = \sum_{i,j,k}(\overline{Y}_{.j.} - \overline{Y}_{...})^2 b1b-1 MSB=SSB/(b1)MSB = SSB / (b-1)
交互作用(Interaction) SSAB=i,j,k(Yij.Yi..Y.j.+Y...)2SSAB = \sum_{i,j,k}(\overline{Y}_{ij.} - \overline{Y}_{i..} - \overline{Y}_{.j.} + \overline{Y}_{...})^2 (a1)(b1)(a-1)(b-1) MSAB=SSAB/((a1)(b1))MSAB = SSAB / ((a-1)(b-1))
误差(Error) SSE=i,j,k(YijkYij.)2SSE = \sum_{i,j,k}(Y_{ijk} - \overline{Y}_{ij.})^2 ab(n1)ab(n-1) MSE=SSE/(ab(n1))MSE = SSE / (ab(n-1))
总计(Total) SST=i,j,k(YijkY...)2SST = \sum_{i,j,k}(Y_{ijk} - \overline{Y}_{...})^2 abn1abn-1 MST=SST/(abn1)MST = SST / (abn-1)

# 假设检验

通过 F 统计量来检验因子效应的显著性。

  • 因子 A 主效应
    • H0:αi=0H_0: \alpha_i=0 for all ii
    • FA=MSA/MSEF_A = MSA/MSE
  • 因子 B 主效应
    • H0:βj=0H_0: \beta_j=0 for all jj
    • FB=MSB/MSEF_B = MSB/MSE
  • 交互作用
    • H0:(αβ)ij=0H_0: (\alpha\beta)_{ij}=0 for all i,ji,j
    • FAB=MSAB/MSEF_{AB} = MSAB/MSE

# 均方的期望值

  • E(MSE)=σ2E(MSE) = \sigma^2
  • E(MSA)=σ2+bna1iαi2E(MSA) = \sigma^2 + \frac{bn}{a-1} \sum_{i} \alpha_i^2
  • E(MSB)=σ2+anb1jβj2E(MSB) = \sigma^2 + \frac{an}{b-1} \sum_{j} \beta_j^2
  • E(MSAB)=σ2+n(a1)(b1)i,j(αβ)ij2E(MSAB) = \sigma^2 + \frac{n}{(a-1)(b-1)} \sum_{i,j} (\alpha\beta)_{ij}^2

# 最小二乘均值(Least Squares Means, LS-Means)

  • 最小二乘均值,也称为边际均值估计(Estimated Marginal Means, EMM),是对模型中特定水平组合的总体均值进行的估计。
  • 平衡数据:在平衡设计中(即所有 nijn_{ij} 相等),LS-Means 就是每个单元格样本均值的非加权平均。
  • 非平衡数据:LS-Means 主要用于处理非平衡数据,它通过模型调整来估计均值,从而抵消样本量不均衡带来的影响。
  • R 语言中的 emmeans
    • 对于只有主效应的模型 lm(Y ~ X1 + X2)emmeans 计算的是主效应的边际均值。
    • 对于包含交互效应的模型 lm(Y ~ X1 * X2)emmeans 计算的是每个单元格均值的非加权平均,然后基于这些均值来估计主效应的边际均值,从而提供更稳健的分析结果。