# 双总体均值推断
# 双总体成对样本的均值检验
当样本数据成对出现时(例如,对同一组个体在不同处理前后的测量),可以转换为单样本问题来处理。
# 双总体独立正态分布样本的均值检验(同方差)
当两个总体服从独立的多元正态分布且具有相同的协方差矩阵时。
- 协方差矩阵:Var(Xˉ1−Xˉ2)=(n11+n21)Σ,其中 Σ 是两个总体共同的协方差矩阵。
- 合并协方差矩阵:
Spooled=n1+n2−2∑j=1n1(x1j−xˉ1)(x1j−xˉ1)T+∑j=1n2(x2j−xˉ2)(x2j−xˉ2)T
- 检验统计量:
T2=(Xˉ1−Xˉ2−δ0)T[(n11+n21)Spooled]−1(Xˉ1−Xˉ2−δ0)
该统计量服从 n1+n2−p−1p(n1+n2−2)Fp,n1+n2−p−1 分布。
- 置信区间:置信区间的推导与单总体类似。
- 最大分布差异方向:寻找使两个样本均值差异最大的方向 a,即最大化 aTSpooledaaT(Xˉ1−Xˉ2)。该方向与 Spooled−1(Xˉ1−Xˉ2) 成正比。
# 大样本推断
# 单总体大样本均值检验(无需服从正态分布)
当样本量足够大时,基于中心极限定理,可以放宽正态分布假设。
- 中心极限定理:当 n→∞ 时,n(Xˉ−μ0)→Np(0,Σ)。
- 检验统计量:
(Xˉ−μ0)T(nS)−1(Xˉ−μ0)
该统计量渐近服从 χp2 分布。因此,在显著性水平 α 下,拒绝域为 (Xˉ−μ0)T(nS)−1(Xˉ−μ0)>c2,其中 c2=χp2(α)。
- 置信区间:对于任意方向 a,均值 aTμ 的近似置信区间为:
Ia(z)=aTXˉ±χp2(α)naTSa
# 双总体独立大样本均值检验
当两个总体独立且样本量足够大时,无论其分布如何。
- 协方差矩阵:Var(Xˉ1−Xˉ2)=n11Σ1+n21Σ2。
- 检验统计量:
(Xˉ1−Xˉ2−δ0)T(n11S1+n21S2)−1(Xˉ1−Xˉ2−δ0)
该统计量渐近服从 χp2 分布。
- 置信区间:对于任意方向 a,均值差 aT(μ1−μ2) 的近似置信区间为:
Ia(z)=aT(Xˉ1−Xˉ2)±χp2(α)aT(n11S1+n21S2)a
# 双总体独立大样本方差检验
此检验基于似然比检验(LRT),且对正态性假设较为敏感。
# 多元正态性检验与异常值检测
# 多元正态性检验
用于判断样本数据是否服从多元正态分布。
- 检验边缘分布:通过直方图或 Q-Q 图检验每个变量的边缘分布是否为正态。
- 检验线性组合:通过检验数据的线性组合(例如,主成分分析中的第一主成分 e^1TX)是否服从正态分布。
- 检验曼哈顿距离:基于距离 (x−μ)TΣ−1(x−μ) 服从 χp2 分布的特性,通过绘制其 Q-Q 图来检验正态性。
- 处理非正态数据:当数据不满足正态性假设时,通常需要借助非参数方法或对数据进行变换,具体方法可参考线性回归分析。
# 基于多元正态分布的异常值检测
通过对数据的可视化和距离计算来识别异常值。
- 单变量散点图:对每个变量单独绘制散点图,观察是否存在极端值。
- 两变量散点图:对每对变量绘制散点图,观察是否存在离群点或异常模式。
- 计算标准距离:计算每个数据点到样本均值的标准距离,以识别异常值。
- 计算曼哈顿距离:计算每个数据点到均值的马氏距离(即笔记中的曼哈顿距离),因为马氏距离考虑了变量间的相关性,能更有效地识别异常值。