# 预备知识
# Wishart 分布
如果 Zi∼iidNp(0,Σ),那么 ∑i=1mZiZiT∼Wp(m,Σ)。这可以看作是多元正态分布中卡方分布的推广。
Wishart 分布有两个重要性质:
- 可加性:如果 A1∼Wp(m1,Σ) 和 A2∼Wp(m2,Σ) 独立,那么它们的和 A1+A2∼Wp(m1+m2,Σ)。
- 线性变换:如果 A∼Wp(m,Σ),那么对于任意矩阵 C,有 CACT∼Wp(m,CΣCT)。
# 样本均值与样本方差的独立性
可以证明,对于正态分布样本,样本均值 Xˉ 与样本方差 S 是独立的。
# 单总体均值检验
# 一元情况
对于来自 N(μ,σ2) 的样本,有以下统计量:
- 当 σ2 已知时,σn(xˉ−μ0)∼N(0,1)。
- 当 σ2 未知时,样本方差 s2 满足 σ2(n−1)s2∼χn−12。
- 将上述两个统计量结合,得到 t 统计量:t=sn(xˉ−μ0)∼tn−1。
- 这个 t 统计量的平方 t2=(xˉ−μ0)(ns2)−1(xˉ−μ0) 服从 tn−12 分布,同时它也服从 F1,n−1 分布。
# 多元情况
对于来自 Np(μ,Σ) 的样本,有以下统计量:
- 样本均值 Xˉ 满足 n(Xˉ−μ0)∼Np(0,Σ)。
- 样本协方差矩阵 S 满足 (n−1)S∼Wp(n−1,Σ)。
- 将上述统计量结合,得到 Hotelling's T2 统计量:T2=(Xˉ−μ0)T(nS)−1(Xˉ−μ0)。
- Hotelling's T2 统计量 服从 n−pp(n−1)Fp,n−p 分布。
- 拒绝域:当 T2>n−pp(n−1)Fp,n−p(α) 时,拒绝原假设。
- 线性变换下的不变性:如果 Y=CX+d,那么 TY2=TX2,即 Hotelling's T2 统计量在仿射变换下保持不变。
# 似然比检验 (LRT)
似然比检验的统计量 Λ 定义为:
Λ=maxH0∪H1L(μ0,Σ)maxH0L(μ0,Σ)=(∣Σ^∣∣Σ^0∣)−n/2
其中,Σ^0=n1∑i=1n(Xi−μ0)(Xi−μ0)T 是原假设下的最大似然估计,Σ^=n1∑i=1n(Xi−Xˉ)(Xi−Xˉ)T 是无约束下的最大似然估计。
通过代数运算,可以证明似然比与 Hotelling's T2 统计量之间的关系:
∣Σ^∣∣Σ^0∣=1+n−1T2
利用此关系,可以先计算 Hotelling's T2 统计量来完成 LRT 检验,从而避免直接求逆。
# 单总体均值的置信域与置信区间
# 置信域
基于 Hotelling's T2 统计量,可以构建一个置信域,它是一个以 Xˉ 为中心的椭球:
Tμ2=n(Xˉ−μ)TS−1(Xˉ−μ)≤c2=T2(α)=n−pp(n−1)Fp,n−p(α)
这个椭球包含了真实均值 μ 的概率为 1−α。
# 置信区间
置信区间可以理解为置信域在特定方向上的投影。
# 单个分量的置信区间
对于一个线性组合 z=aTX,其样本估计为 ψ^=aTXˉ,标准误为 se^(ψ^)=naTSa。
因此,置信区间为:
Iψ(z)=ψ^±tn−1(2α)se^(ψ^)=aTXˉ±tn−1(2α)naTSa
# Hotelling's T2 置信区间
由于 T2 统计量考虑了所有方向,它的置信区间是所有可能方向上投影的包络线。
在任意方向 a 上的置信区间为:
Ia(z)=aTXˉ±cnaTSa
其中 c2=T2(α)=n−pp(n−1)Fp,n−p(α)。由于 maxat2≤T2,此置信区间比单个分量的置信区间更宽。
# Bonferroni 置信区间
当需要同时对 m 个分量或线性组合构建置信区间时,为了保证所有区间都包含真值的联合概率为 1−α,可以对每个区间的显著性水平进行调整。
根据 Bonferroni 不等式,只需让每个区间的显著性水平为 α/m 即可。
Iψk(z)=ψ^k±tn−1(2mα)se^(ψ^k)=akTXˉ±tn−1(2mα)nakTSak
最终的联合置信区间为所有单个区间的笛卡尔乘积 Iψ(z)=∏k=1mIψk(z)。
# Hotelling's T2 与 Bonferroni 置信区间的比较
Hotelling's T2 置信区间和 Bonferroni 置信区间在大小上没有绝对的优劣。通常来说,当需要同时考察的线性组合数量 m 相对维度 p 不太大时,Bonferroni 置信区间通常更窄,因此更优。