4.9k4 分钟

# 简介 聚类分析是一种无监督学习技术,旨在根据相似性将数据点分组到不同的簇中。本笔记系统梳理了聚类分析中的关键概念、方法及其优缺点。 # 距离度量 在聚类分析中,距离度量是定义数据点或簇之间“相似性”或“不相似性”的核心。 # 点与点之间的距离 欧氏距离 (Euclidean Distance):最常见的距离度量,基于点在多维空间中的直线距离。 相关系数 (Correlation Coefficient):衡量两个变量之间的线性相关性,常用于高维数据。 Jaccard 距离 (Jaccard Distance):主要用于度量两个集合之间的不相似性。 汉明距离 (Hamming Distan
4k4 分钟

# 基本概念与分类方法 # 基于似然的分类器 这类方法基于似然比进行决策,其核心是假设总体的概率分布已知。 # 基于错误分类的预期成本 (ECM) 该方法的目标是最小化总的错误分类预期成本。 定义: ECM=c(2∣1)P(X∈R2,X∈π1)+c(1∣2)P(X∈R1,X∈π2)=c(2∣1)P(2∣1)p1+c(1∣2)P(1∣2)p2ECM = c(2|1)P(X \in R_2, X \in \pi_1) + c(1|2)P(X \in R_1, X \in \pi_2) = c(2|1)P(2|1)p_1 + c(1|2)P(1|2)p_2E
5k5 分钟

# 概述 典型相关分析 (CCA) 是一种多元统计方法,用于研究两组多维变量之间的线性关系。其核心思想是,在每组变量中找到一对线性组合,使得它们之间的相关性最大化,这对线性组合被称为典型相关变量对 (canonical variate pair)。通过寻找多对这样的变量,可以系统地揭示两组变量间的内在关联结构。 CCA 通常分为总体 CCA (Population Canonical Correlation) 和样本 CCA (Sample Canonical Correlation) 两种类型。 # 总体 CCA (Population Canonical Correlation) # 模
6.9k6 分钟

# 正交因子模型 (Orthogonal Factor Model) 因子分析是一种降维技术,旨在通过识别一组潜在的、不可观测的“因子”来解释观测变量之间的协方差关系。正交因子模型是最基本的因子分析模型之一。 # 模型定义与假设 模型公式:将 ppp 个观测变量 XXX 表示为 mmm 个公因子 FFF 和 ppp 个特殊因子 ε\varepsilonε 的线性组合。 X(p×1)−μ(p×1)=L(p×m)F(m×1)+ε(p×1)X_{(p\times 1)}-\mu_{(p\times 1)}=L_{(p\times m)}F_{(m\times 1)}+\var
2.2k2 分钟

# 概述 主成分分析(PCA)是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的新变量,这些新变量被称为主成分。其核心思想是,在尽可能多地保留原始信息(即方差)的同时,将高维数据投影到低维空间中。 # 定义 给定一个 ppp 维随机向量 XXX,Yi=eiTXY_i=e_i^TXYi​=eiT​X 定义了第 iii 个主成分。其中,eie_iei​ 是协方差矩阵 Σ\SigmaΣ 的第 iii 个特征向量,对应特征值 λi\lambda_iλi​,且特征值按从大到小的顺序排列:λ1≥λ2≥⋯≥λp\lambda_1 \geq \lambd
3.6k3 分钟

# 双总体均值推断 # 双总体成对样本的均值检验 当样本数据成对出现时(例如,对同一组个体在不同处理前后的测量),可以转换为单样本问题来处理。 差值向量定义:令 Dj=X1j−X2jD_j = X_{1j} - X_{2j}Dj​=X1j​−X2j​,其中 X1jX_{1j}X1j​ 和 X2jX_{2j}X2j​ 为第 jjj 个成对样本的观测值。 检验统计量:T2=(Dˉ−δ0)T(Sdn)−1(Dˉ−δ0)T^2 = (\bar D - \delta_0)^T \left(\frac{S_d}{n}\right)^{-1} (\bar
3.3k3 分钟

# 预备知识 # Wishart 分布 如果 Zi∼iidNp(0,Σ)Z_i \sim^{iid} N_p(0, \Sigma)Zi​∼iidNp​(0,Σ),那么 ∑i=1mZiZiT∼Wp(m,Σ)\sum_{i=1}^m Z_i Z_i^T \sim W_p(m, \Sigma)∑i=1m​Zi​ZiT​∼Wp​(m,Σ)。这可以看作是多元正态分布中卡方分布的推广。 Wishart 分布有两个重要性质: 可加性:如果 A1∼Wp(m1,Σ)A_1 \sim W_p(m_1, \Sigma)A1​∼Wp​(m1​,Σ) 和 A2∼Wp(m2,Σ)A_2 \
2.4k2 分钟

# 定义与性质 多元正态分布是单变量正态分布向多维空间的推广。一个 ppp 维随机向量 XXX 服从均值为 μ\muμ、协方差矩阵为 Σ\SigmaΣ 的多元正态分布,记作 X∼Np(μ,Σ)X \sim N_p(\mu, \Sigma)X∼Np​(μ,Σ),其概率密度函数为: f(x)=1(2π)p/2∣Σ∣1/2e−12(x−μ)TΣ−1(x−μ)f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)} f(x)
3.2k3 分钟

# 核心概念与运算 向量基本运算: 向量的内积、夹角、模长、以及向量 xxx 在向量 yyy 上的投影 xTyyTyy\frac{x^Ty}{y^Ty}yyTyxTy​y。 统计量的矩阵描述与性质: 样本均值 (Xˉ\bar XXˉ):Xˉ=1nXT1n\bar X=\frac{1}{n}X^T1_nXˉ=n1​XT1n​ 样本方差 (SSS):(n−1)S=(X−Xˉ)(X−Xˉ)T=XT(I−1n1n1nT)X(n-1)S=(X-\bar X)(X-\bar X)^T = X^T(I-\frac{1}{n}1_n1_
2.1k2 分钟

# 多元数据的矩阵表示 多元统计分析主要处理多变量数据。为了方便表示和计算,我们将数据组织成矩阵形式: 行:代表一个个体的样本(或观测值)。 列:代表一个变量。 矩阵的行数是样本量 nnn,列数是变量数 ppp。 # 多元统计量 # 样本统计量 样本均值向量 xˉ\bar xxˉ:一个列向量,其第 iii 个元素是第 iii 个变量的样本均值 xˉi\bar x_ixˉi​。xˉi=1n∑k=1nxki\bar x_i = \frac{1}{n} \sum_{k=1}^n x_{ki} xˉi​=n1​k=1∑n​xki​