# 多元数据的矩阵表示
多元统计分析主要处理多变量数据。为了方便表示和计算,我们将数据组织成矩阵形式:
- 行:代表一个个体的样本(或观测值)。
- 列:代表一个变量。
矩阵的行数是样本量 n,列数是变量数 p。
# 多元统计量
# 样本统计量
- 样本均值向量 xˉ:一个列向量,其第 i 个元素是第 i 个变量的样本均值 xˉi。
xˉi=n1k=1∑nxki
- 样本协方差矩阵 S:一个 p×p 的实对称矩阵,其第 (i,j) 个元素是第 i 和第 j 个变量的样本协方差 sij。
sij=n−11k=1∑n(xki−xˉi)(xkj−xˉj)
对角线元素 sii 是第 i 个变量的样本方差 si2。
- 样本相关系数矩阵 R:一个 p×p 的实对称矩阵,其第 (i,j) 个元素是第 i 和第 j 个变量的样本相关系数 rij。
rij=siisjjsij
对角线元素均为 1。
# 总体协方差矩阵
# 多元距离
多元统计中常用的距离度量考虑了变量之间的相关性。
- 标准距离:当变量相互独立时,可以使用标准距离。它对每个变量进行标准化,以消除量纲差异。
d(P,Q)=i=1∑psii(xi−yi)2
- 马氏距离(Mahalanobis Distance):考虑了变量之间的协方差,是更通用的距离度量。
d(x,μ)=(x−μ)TΣ−1(x−μ)
当协方差矩阵 Σ 为对角阵时,马氏距离退化为标准距离。
# 关于距离的理解
利用期望的性质 E[XTAX]=tr(AΣ)+μTAμ,可以推导出一些关于距离的有趣结论:
- E[∣∣X−μ∣∣22]=E[(X−μ)T(X−μ)]=tr(Σ)=∑i=1pσii
- E[d(x,μ)2]=E[(x−μ)TΣ−1(x−μ)]=p
- E[d(x,y)2]=E[(x−y)TΣ−1(x−y)]=p
需要注意的是,马氏距离与协方差矩阵有关,而非与其无关。
# 探索性数据分析 (EDA)
探索性数据分析(EDA)旨在通过可视化等方式洞察数据特征。
# 箱线图 (Box Plot)
箱线图用于展示单个变量的分布特征和异常值。
- Q1, Q3:分别为 0.25 和 0.75 分位数。
- IQR:四分位距,即 Q3−Q1。
- 上界:min(Q3+1.5×IQR,最大值)。
- 下界:max(Q1−1.5×IQR,最小值)。
- 异常值(Outliers):位于上下界之外的点。
# 散点图矩阵 (Scatter Plot Matrix)
散点图矩阵可以同时展示多个变量两两之间的关系。
- R 语言中的函数:
ggpairs()
,来自 GGally
包。
# 三维散点图 (3D Scatter Plot)
三维散点图用于展示三个变量之间的关系。
- R 语言中的函数:
scatterplot3d()
,来自 scatterplot3d
包。