# 多元数据的矩阵表示

多元统计分析主要处理多变量数据。为了方便表示和计算,我们将数据组织成矩阵形式:

  • :代表一个个体的样本(或观测值)。
  • :代表一个变量

矩阵的行数是样本量 nn,列数是变量数 pp


# 多元统计量

# 样本统计量

  • 样本均值向量 xˉ\bar x:一个列向量,其第 ii 个元素是第 ii 个变量的样本均值 xˉi\bar x_i

    xˉi=1nk=1nxki\bar x_i = \frac{1}{n} \sum_{k=1}^n x_{ki}

  • 样本协方差矩阵 SS:一个 p×pp \times p 的实对称矩阵,其第 (i,j)(i,j) 个元素是第 ii 和第 jj 个变量的样本协方差 sijs_{ij}

    sij=1n1k=1n(xkixˉi)(xkjxˉj)s_{ij} = \frac{1}{n-1} \sum_{k=1}^n (x_{ki} - \bar x_i)(x_{kj} - \bar x_j)

    对角线元素 siis_{ii} 是第 ii 个变量的样本方差 si2s_i^2
  • 样本相关系数矩阵 RR:一个 p×pp \times p 的实对称矩阵,其第 (i,j)(i,j) 个元素是第 ii 和第 jj 个变量的样本相关系数 rijr_{ij}

    rij=sijsiisjjr_{ij} = \frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}

    对角线元素均为 1。

# 总体协方差矩阵

  • 总体协方差矩阵 Σ\Sigma:一个 p×pp \times p 的实对称矩阵,其第 (i,j)(i,j) 个元素是第 ii 和第 jj 个变量的总体协方差 σij\sigma_{ij}

    Σ=Var(X)=E[(Xμ)(Xμ)T]\Sigma = Var(X) = E[(X-\mu)(X-\mu)^T]

    其中,σij=cov(Xi,Xj)=E[(Xiμi)(Xjμj)]\sigma_{ij} = cov(X_i, X_j) = E[(X_i - \mu_i)(X_j - \mu_j)]

# 多元距离

多元统计中常用的距离度量考虑了变量之间的相关性。

  • 标准距离:当变量相互独立时,可以使用标准距离。它对每个变量进行标准化,以消除量纲差异。

    d(P,Q)=i=1p(xiyi)2siid(P, Q) = \sqrt{\sum_{i=1}^p \frac{(x_i - y_i)^2}{s_{ii}}}

  • 马氏距离(Mahalanobis Distance):考虑了变量之间的协方差,是更通用的距离度量。

    d(x,μ)=(xμ)TΣ1(xμ)d(x, \mu) = \sqrt{(x-\mu)^T \Sigma^{-1} (x-\mu)}

    当协方差矩阵 Σ\Sigma 为对角阵时,马氏距离退化为标准距离。

# 关于距离的理解

利用期望的性质 E[XTAX]=tr(AΣ)+μTAμE[X^TAX] = tr(A\Sigma) + \mu^TA\mu,可以推导出一些关于距离的有趣结论:

  • E[Xμ22]=E[(Xμ)T(Xμ)]=tr(Σ)=i=1pσiiE[||X-\mu||^2_2] = E[(X-\mu)^T(X-\mu)] = tr(\Sigma) = \sum_{i=1}^p \sigma_{ii}
  • E[d(x,μ)2]=E[(xμ)TΣ1(xμ)]=pE[d(x, \mu)^2] = E[(x-\mu)^T \Sigma^{-1} (x-\mu)] = p
  • E[d(x,y)2]=E[(xy)TΣ1(xy)]=pE[d(x, y)^2] = E[(x-y)^T \Sigma^{-1} (x-y)] = p

需要注意的是,马氏距离与协方差矩阵有关,而非与其无关。


# 探索性数据分析 (EDA)

探索性数据分析(EDA)旨在通过可视化等方式洞察数据特征。

# 箱线图 (Box Plot)

箱线图用于展示单个变量的分布特征和异常值。

  • Q1, Q3:分别为 0.25 和 0.75 分位数。
  • IQR:四分位距,即 Q3Q1Q3 - Q1
  • 上界min(Q3+1.5×IQR,最大值)\min(Q3 + 1.5 \times IQR, \text{最大值})
  • 下界max(Q11.5×IQR,最小值)\max(Q1 - 1.5 \times IQR, \text{最小值})
  • 异常值(Outliers):位于上下界之外的点。

# 散点图矩阵 (Scatter Plot Matrix)

散点图矩阵可以同时展示多个变量两两之间的关系。

  • R 语言中的函数ggpairs(),来自 GGally 包。

# 三维散点图 (3D Scatter Plot)

三维散点图用于展示三个变量之间的关系。

  • R 语言中的函数scatterplot3d(),来自 scatterplot3d 包。