# 双总体均值推断

# 双总体成对样本的均值检验

当样本数据成对出现时(例如,对同一组个体在不同处理前后的测量),可以转换为单样本问题来处理。

  • 差值向量定义:令 Dj=X1jX2jD_j = X_{1j} - X_{2j},其中 X1jX_{1j}X2jX_{2j} 为第 jj 个成对样本的观测值。
  • 检验统计量

    T2=(Dˉδ0)T(Sdn)1(Dˉδ0)T^2 = (\bar D - \delta_0)^T \left(\frac{S_d}{n}\right)^{-1} (\bar D - \delta_0)

    该统计量服从 p(n1)npFp,np\frac{p(n-1)}{n-p} F_{p,n-p} 分布,其中 Dˉ\bar D 是差值向量的样本均值,δ0\delta_0 是假设的总体均值差, SdS_d 是差值向量的样本协方差矩阵,nn 是样本对的数量,pp 是变量的维数。

# 双总体独立正态分布样本的均值检验(同方差)

当两个总体服从独立的多元正态分布且具有相同的协方差矩阵时。

  • 协方差矩阵Var(Xˉ1Xˉ2)=(1n1+1n2)ΣVar(\bar X_1 - \bar X_2) = \left(\frac{1}{n_1} + \frac{1}{n_2}\right) \Sigma,其中 Σ\Sigma 是两个总体共同的协方差矩阵。
  • 合并协方差矩阵

    Spooled=j=1n1(x1jxˉ1)(x1jxˉ1)T+j=1n2(x2jxˉ2)(x2jxˉ2)Tn1+n22S_{\text{pooled}} = \frac{\sum_{j=1}^{n_1}(x_{1j} - \bar x_1)(x_{1j} - \bar x_1)^T + \sum_{j=1}^{n_2}(x_{2j} - \bar x_2)(x_{2j} - \bar x_2)^T}{n_1+n_2-2}

  • 检验统计量

    T2=(Xˉ1Xˉ2δ0)T[(1n1+1n2)Spooled]1(Xˉ1Xˉ2δ0)T^2 = (\bar X_1 - \bar X_2 - \delta_0)^T \left[ \left(\frac{1}{n_1} + \frac{1}{n_2}\right) S_{\text{pooled}} \right]^{-1} (\bar X_1 - \bar X_2 - \delta_0)

    该统计量服从 p(n1+n22)n1+n2p1Fp,n1+n2p1\frac{p(n_1+n_2-2)}{n_1+n_2-p-1} F_{p,n_1+n_2-p-1} 分布。
  • 置信区间:置信区间的推导与单总体类似。
  • 最大分布差异方向:寻找使两个样本均值差异最大的方向 aa,即最大化 aT(Xˉ1Xˉ2)aTSpooleda\left| \frac{a^T(\bar X_1 - \bar X_2)}{\sqrt{a^TS_{\text{pooled}}a}} \right|。该方向与 Spooled1(Xˉ1Xˉ2)S_{\text{pooled}}^{-1}(\bar X_1 - \bar X_2) 成正比。

# 大样本推断

# 单总体大样本均值检验(无需服从正态分布)

当样本量足够大时,基于中心极限定理,可以放宽正态分布假设。

  • 中心极限定理:当 nn \rightarrow \infty 时,n(Xˉμ0)Np(0,Σ)\sqrt{n}(\bar X - \mu_0) \rightarrow N_p(0, \Sigma)
  • 检验统计量

    (Xˉμ0)T(Sn)1(Xˉμ0)(\bar X - \mu_0)^T \left(\frac{S}{n}\right)^{-1} (\bar X - \mu_0)

    该统计量渐近服从 χp2\chi_p^2 分布。因此,在显著性水平 α\alpha 下,拒绝域为 (Xˉμ0)T(Sn)1(Xˉμ0)>c2(\bar X - \mu_0)^T \left(\frac{S}{n}\right)^{-1} (\bar X - \mu_0) > c^2,其中 c2=χp2(α)c^2 = \chi_p^2(\alpha)
  • 置信区间:对于任意方向 aa,均值 aTμa^T\mu 的近似置信区间为:

    Ia(z)=aTXˉ±χp2(α)aTSanI_a(z) = a^T \bar X \pm \sqrt{\chi_p^2(\alpha)} \sqrt{\frac{a^TSa}{n}}

# 双总体独立大样本均值检验

当两个总体独立且样本量足够大时,无论其分布如何。

  • 协方差矩阵Var(Xˉ1Xˉ2)=1n1Σ1+1n2Σ2Var(\bar X_1 - \bar X_2) = \frac{1}{n_1}\Sigma_1 + \frac{1}{n_2}\Sigma_2
  • 检验统计量

    (Xˉ1Xˉ2δ0)T(1n1S1+1n2S2)1(Xˉ1Xˉ2δ0)(\bar X_1 - \bar X_2 - \delta_0)^T \left(\frac{1}{n_1}S_1 + \frac{1}{n_2}S_2\right)^{-1} (\bar X_1 - \bar X_2 - \delta_0)

    该统计量渐近服从 χp2\chi_p^2 分布。
  • 置信区间:对于任意方向 aa,均值差 aT(μ1μ2)a^T(\mu_1 - \mu_2) 的近似置信区间为:

    Ia(z)=aT(Xˉ1Xˉ2)±χp2(α)aT(1n1S1+1n2S2)aI_a(z) = a^T(\bar X_1 - \bar X_2) \pm \sqrt{\chi_p^2(\alpha)} \sqrt{a^T\left(\frac{1}{n_1}S_1 + \frac{1}{n_2}S_2\right)a}

# 双总体独立大样本方差检验

此检验基于似然比检验(LRT),且对正态性假设较为敏感。

  • 似然比检验(LRT)
    • LRT 统计量

      Λ=maxH0L(θ)maxH0H1L(θ)\Lambda = \frac{\max_{H_0}L(\theta)}{\max_{H_0 \cup H_1}L(\theta)}

    • 渐近分布2lnΛχνν02-2\ln\Lambda \rightarrow \chi^2_{\nu - \nu_0},其中 ν\nuν0\nu_0 分别是备择假设和原假设下的参数维数。
  • 双总体方差检验
    • LRT 统计量

      Λ=i=12(SiSpooled)(ni1)/2\Lambda = \prod_{i=1}^{2} \left( \frac{|S_i|}{|S_{\text{pooled}}|} \right)^{(n_i-1)/2}

      其中 SiS_i 是第 ii 个样本的协方差矩阵,SpooledS_{\text{pooled}} 是合并后的协方差矩阵。
    • 修正渐近分布(1u)(2lnΛ)χν2(1-u)(-2\ln\Lambda) \rightarrow \chi_{\nu}^2
      • 自由度 ν=12p(p+1)\nu = \frac{1}{2}p(p+1)
      • 修正项 u=[i1ni11i(ni1)]2p2+3p16(p+1)u = \left[ \sum_{i} \frac{1}{n_i-1} - \frac{1}{\sum_{i}(n_i-1)} \right] \frac{2p^2+3p-1}{6(p+1)}

# 多元正态性检验与异常值检测

# 多元正态性检验

用于判断样本数据是否服从多元正态分布。

  • 检验边缘分布:通过直方图Q-Q 图检验每个变量的边缘分布是否为正态。
  • 检验线性组合:通过检验数据的线性组合(例如,主成分分析中的第一主成分 e^1TX\hat e_1^TX)是否服从正态分布。
  • 检验曼哈顿距离:基于距离 (xμ)TΣ1(xμ)(x-\mu)^T\Sigma^{-1}(x-\mu) 服从 χp2\chi_p^2 分布的特性,通过绘制其 Q-Q 图来检验正态性。
  • 处理非正态数据:当数据不满足正态性假设时,通常需要借助非参数方法或对数据进行变换,具体方法可参考线性回归分析。

# 基于多元正态分布的异常值检测

通过对数据的可视化和距离计算来识别异常值。

  • 单变量散点图:对每个变量单独绘制散点图,观察是否存在极端值。
  • 两变量散点图:对每对变量绘制散点图,观察是否存在离群点或异常模式。
  • 计算标准距离:计算每个数据点到样本均值的标准距离,以识别异常值。
  • 计算曼哈顿距离:计算每个数据点到均值的马氏距离(即笔记中的曼哈顿距离),因为马氏距离考虑了变量间的相关性,能更有效地识别异常值。