# 定义与性质

多元正态分布是单变量正态分布向多维空间的推广。一个 pp 维随机向量 XX 服从均值为 μ\mu、协方差矩阵为 Σ\Sigma 的多元正态分布,记作 XNp(μ,Σ)X \sim N_p(\mu, \Sigma),其概率密度函数为:

f(x)=1(2π)p/2Σ1/2e12(xμ)TΣ1(xμ)f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}

  • 线性组合性质
    • 任何线性组合仍服从正态分布。若 XNp(μ,Σ)X \sim N_p(\mu,\Sigma),则 aTXN1(aTμ,aTΣa)a^TX \sim N_1(a^T\mu, a^T\Sigma a)
    • 类似地,对于矩阵 AA,有 AXNk(Aμ,AΣAT)AX \sim N_k(A\mu, A\Sigma A^T)
  • 线性变换与标准化
    • 任何多元正态分布都可以由标准正态分布通过线性变换得到。若 ZNp(0,I)Z \sim N_p(0,I),则 μ+Σ1/2ZNp(μ,Σ)\mu+\Sigma^{1/2}Z \sim N_p(\mu,\Sigma)
    • 二次型 (xμ)TΣ1(xμ)(x-\mu)^T\Sigma^{-1}(x-\mu) 服从自由度为 pp 的卡方分布,即 (Xμ)TΣ1(Xμ)χp2(X-\mu)^T\Sigma^{-1}(X-\mu) \sim \chi^2_p

# 几何特性

多元正态分布的等高线是由其二次型决定的,是一个以 μ\mu 为中心的超椭球。

  • 等高线方程(xμ)TΣ1(xμ)=c2(x-\mu)^T\Sigma^{-1}(x-\mu)=c^2
  • 几何中心μ\mu 是分布的中心。
  • 主轴:超椭球的主轴方向由协方差矩阵 Σ\Sigma 的特征向量 eie_i 决定,其半轴长度为 cλic\sqrt{\lambda_i},其中 λi\lambda_i 是对应的特征值。最长轴对应于最大的特征值。

# 分块矩阵的性质

当多元正态随机向量 XX 被分块为 X=[X1X2]X = \begin{bmatrix} X_1\\X_2 \end{bmatrix} 时,其均值和协方差矩阵也相应分块:

[X1X2]Np1+p2([μ1μ2],[Σ11Σ12Σ21Σ22])\begin{bmatrix} X_1\\X_2 \end{bmatrix}\sim N_{p_1+p_2}(\begin{bmatrix} \mu_1\\\mu_2 \end{bmatrix},\begin{bmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{bmatrix})

  • 分块均值与协方差
    • Σ12=Σ21T=Cov(X1,X2)\Sigma_{12} = \Sigma_{21}^T = Cov(X_1, X_2)
    • 边缘分布 X1X_1 仍服从正态分布,即 X1Np1(μ1,Σ11)X_1 \sim N_{p_1}(\mu_1, \Sigma_{11})
  • 独立性
    • X1X_1X2X_2 相互独立当且仅当它们的协方差矩阵 Σ12=0\Sigma_{12}=0
    • X1X_1X2X_2 相互独立,则它们的联合分布仍是多元正态分布,且 Σ12=0\Sigma_{12}=0
    • X1X_1X2X_2 相互独立,它们的线性组合仍然是正态分布,其均值和方差遵循与一元情况类似的性质。
  • 条件分布
    • X1X2=x2X_1|X_2=x_2 的条件分布仍然是多元正态分布,其均值和协方差矩阵分别为:
      • E(X1X2=x2)=μ1+Σ12Σ221(x2μ2)E(X_1|X_2=x_2) = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(x_2 - \mu_2)
      • Cov(X1X2=x2)=Σ11Σ12Σ221Σ21Cov(X_1|X_2=x_2) = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}
    • 两个不相关的线性组合 Y1=c1TXY_1=c_1^TXY2=c2TXY_2=c_2^TX 相互独立,当且仅当它们的协方差为零,即 Cov(Y1,Y2)=c1TΣc2=0Cov(Y_1, Y_2) = c_1^T\Sigma c_2 = 0。对于标准正态分布,当 c1c_1c2c_2 正交时 (c1Tc2=0c_1^T c_2=0),它们是独立的。

# 统计推断

  • 充分统计量:对于一个服从多元正态分布的样本,样本均值 Xˉ\bar{X} 和样本协方差矩阵 SS 是其参数的联合充分统计量。
    • 证明:通常利用似然函数的分解,并应用迹的性质。
  • 参数估计
    • 最大似然估计 (MLE)
      • 均值向量 μ\mu 的最大似然估计为样本均值 μ^MLE=Xˉ\hat{\mu}_{MLE} = \bar{X}
      • 协方差矩阵 Σ\Sigma 的最大似然估计为 Σ^MLE=Sn=1ni=1n(XiXˉ)(XiXˉ)T\hat{\Sigma}_{MLE} = S_n = \frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})(X_i-\bar{X})^T
    • 无偏估计
      • Xˉ\bar{X}μ\mu 的无偏估计。
      • 样本协方差矩阵 S=1n1i=1n(XiXˉ)(XiXˉ)TS = \frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(X_i-\bar{X})^TΣ\Sigma 的无偏估计。
  • 广义样本方差
    • 最大似然估计 Σ^\hat{\Sigma} 的行列式 Σ^|\hat{\Sigma}| 通常被称为广义样本方差,它衡量了样本数据的总体变异性。