# 假设条件检查

进行因子 ANOVA 之前,需要对以下几个关键假设进行诊断:

  • 独立性:这是最重要的假设,如果违反将严重影响结果。
  • 方差齐性:即各组的方差相等。当进行成对比较(pairwise comparison)时,该假设的违反会产生较大影响。但如果数据是平衡的(各组样本量相等),则 ANOVA 对方差不齐的鲁棒性会增加。
  • 正态性:即残差服从正态分布。该假设最不重要,因为许多 ANOVA 方法对非正态性是鲁棒的。值得注意的是,非正态性通常由异方差(heteroscedasticity)引起。

# 诊断方法

# 独立性诊断

  • 时间序列独立性:通过分析时间序列数据来检查独立性。
    • 正自相关(Positive Serial Correlation):相邻时间点的样本值趋于相似。
    • 负自相关(Negative Serial Correlation):相邻时间点的样本值趋于偏离。

# 离群值诊断

  • 单因子 ANOVA:单因子 ANOVA 模型中,YijY_{ij} 的杠杆值(leverage)为 1/ni1/n_i
  • 平衡设计:在平衡设计(各组样本量相等)中,所有观察值的影响力都是相同的。

# 正态性检验

以下是常用的正态性检验方法:

  • Wilk-Shapiro 检验
  • Anderson-Darling 检验
  • Kolmogorov-Smirnov 检验

# 方差齐性检验

以下是常用的方差齐性检验方法:

  • Bartlett's 检验:本质上是一种似然比检验(Likelihood ratio test)。
  • 修正 Levene's 检验(在 KNNL 中也称作 Brown-Forsythe 检验)。
  • Hartley's 检验
    • 检验统计量为 H=max(si2)/min(si2)H^*=\max(s_i^2)/\min(s_i^2),当各组样本量相等 (ni=nn_i=n) 时,其服从 H(r,n1)H(r,n-1) 分布。
    • H>2H^* > 2 时,通常拒绝原假设(方差齐性)。

# 应对措施

# 数据变换

当出现异方差和非正态性时,可以考虑对数据进行变换。常用的变换方法取决于方差与均值的关系:

  • σi2\sigma_i^2μi\mu_i 成正比时,使用平方根变换:Y\sqrt{Y}
  • σi\sigma_iμi\mu_i 成正比时,使用对数变换:log(Y)\log(Y)
  • σi\sigma_iμi2\mu_i^2 成正比时,使用倒数变换:1/Y1/Y
  • 处理比例数据时,使用反正弦平方根变换:arcsin(Y)\arcsin(\sqrt{Y})

# 加权 ANOVA

如果无法通过变换解决异方差问题,可以采用加权 ANOVA,其权重 wiw_i 通常设为 1/si1/s_i

# 非参数方法

非参数方法通常只要求响应变量是连续的,是处理违反假设情况的另一种选择。

  • Kruskal-Wallis 秩和检验:这是一种常见的非参数检验,用于替代单因子 ANOVA。