# 核心概念与运算
- 向量基本运算: 向量的内积、夹角、模长、以及向量 x 在向量 y 上的投影 yTyxTyy。
- 统计量的矩阵描述与性质:
- 样本均值 (Xˉ):Xˉ=n1XT1n
- 样本方差 (S):(n−1)S=(X−Xˉ)(X−Xˉ)T=XT(I−n11n1nT)X,因此 S=n−11XT(I−n11n1nT)X
- 样本相关系数 (R):R=D−1/2SD−1/2,其中 D=diag(S)
- 期望与方差的性质:
- E[Xˉ]=μ
- Var(Xˉ)=n1Σ
- E[S]=Σ
- Var(bTX)=bTΣb
- cov(bTX,cTX)=bTΣc
- Var(AX)=AΣAT
# 矩阵的几何变换
- 对角矩阵: 实现向量的伸缩变换。
- 正交(Orthogonal)矩阵: 实现坐标系的旋转。例如,在二维平面中,逆时针旋转 θ 角度的矩阵为 P=[cosθ−sinθsinθcosθ]。
- 谱分解(Spectral Decomposition): 将方阵 A 分解为 A=PΛPT=PΛP−1。其中,Λ 是由特征值构成的对角矩阵,而 P 是由对应的特征向量构成的正交矩阵。通过谱分解,可以方便地进行矩阵的幂运算和求逆:
- A−1=PΛ−1PT
- A1/2=PΛ1/2PT
- A−1/2=PΛ−1/2PT
- 谱分解可以实现任意方阵的变换。
- 奇异值分解(SVD): 任意矩阵 Am×k 都可以分解为 Am×k=Um×mΛm×kVk×kT。其中 U 和 V 是正交矩阵,Λ=concatenate{diag(λi),0}。
- 奇异值分解可以实现任意矩阵的变换,由于两个正交矩阵的维度可能不同,其变换视角需要在不同的维度下切换。
- 曼哈顿距离的解读与变换: - 令 Y=Σ−1/2X,则 XTΣ−1X=YTY。
- 在这个变换下,Var(Y)=I,即将数据变换到方差为单位矩阵的空间。
# 矩阵计算与不等式
- 矩阵求导:
- ∂x∂Ax=AT
- ∂x∂xTA=A
- ∂x∂xTx=2x
- ∂x∂xTAx=Ax+ATx
- 矩阵的迹求导:∂A∂tr(AB)=BT
- 矩阵的行列式求导:∂A∂∣A∣=∣A∣A−1
- 矩阵的逆求导:∂A∂tr(A−1B)=−A−1BTA−1
- 雅可比(Jacobian)矩阵:
- ∂(u,v)∂(x,y)=(∂u∂x∂v∂x∂u∂y∂v∂y)
- 复合函数的海森(Hessian)矩阵:Hf⋅g(x)=Hg(x)⋅Hf(g(x))
- 重要矩阵不等式:
- 柯西-施瓦茨(Cauchy-Schwarz)不等式:(xTy)2≤(xTx)(yTy)
- 广义柯西-施瓦茨不等式:(xTy)2≤(xTBx)(yTB−1y)(B 为正定矩阵,等号在 x=cB−1y 时成立)
- 瑞利商(Rayleigh Quotient) 的最大/最小值:
- maxx=0xTxxTBx=λ1 (B 为正定矩阵,等号在 x=ce1 时成立,e1 为最大特征值 λ1 对应的特征向量)
- minx=0xTxxTBx=λp (B 为正定矩阵,等号在 x=cep 时成立,ep 为最小特征值 λp 对应的特征向量)
- 广义瑞利商 的最大值:maxx=0xTBx(xTd)2=dTB−1d(B 为正定矩阵,等号在 x=cB−1d 时成立)
# 统计量的几何解读
- 统计量的几何描述:
- 样本均值 对应向量(n 维)在向量 1n 上的投影的长度。
- 样本方差 正比于对应向量(n 维)到向量 1n 的距离的平方。
- 样本相关系数 是对应向量(n 维)到向量 1n 的距离向量之间的夹角的余弦值。
- 广义方差:
- 通常定义为协方差矩阵的迹 tr(S) 或行列式 ∣S∣。
- 几何描述:
- ∣S∣ 正比于样本向量所张成的体积的平方:∣S∣=(volume)2/np。
- 若 ∣S∣=0,意味着至少存在两个统计量之间的相关系数为 1,说明其中有些统计量是冗余的。
- 广义方差与特征值的关系:∣S∣=∏i=1pλi,tr(S)=∑i=1pλi。
- 等密度椭球体积: 由方程 (x−xˉ)TS−1(x−xˉ)≤c2 所定义的椭球体积为 kp∣S∣1/2cp。