# 核心概念与运算

  • 向量基本运算: 向量的内积、夹角、模长、以及向量 xx 在向量 yy 上的投影 xTyyTyy\frac{x^Ty}{y^Ty}y
  • 统计量的矩阵描述与性质:
    • 样本均值 (Xˉ\bar X)Xˉ=1nXT1n\bar X=\frac{1}{n}X^T1_n
    • 样本方差 (SS)(n1)S=(XXˉ)(XXˉ)T=XT(I1n1n1nT)X(n-1)S=(X-\bar X)(X-\bar X)^T = X^T(I-\frac{1}{n}1_n1_n^T)X,因此 S=1n1XT(I1n1n1nT)XS=\frac{1}{n-1}X^T(I-\frac{1}{n}1_n1_n^T)X
    • 样本相关系数 (RR)R=D1/2SD1/2R=D^{-1/2}SD^{-1/2},其中 D=diag(S)D=\text{diag}(S)
    • 期望与方差的性质:
      • E[Xˉ]=μE[\bar X]=\mu
      • Var(Xˉ)=1nΣVar(\bar X)=\frac{1}{n}\Sigma
      • E[S]=ΣE[S]=\Sigma
      • Var(bTX)=bTΣbVar(b^TX)=b^T\Sigma b
      • cov(bTX,cTX)=bTΣccov(b^TX,c^TX)=b^T\Sigma c
      • Var(AX)=AΣATVar(AX)=A\Sigma A^T

# 矩阵的几何变换

  • 对角矩阵: 实现向量的伸缩变换。
  • 正交(Orthogonal)矩阵: 实现坐标系的旋转。例如,在二维平面中,逆时针旋转 θ\theta 角度的矩阵为 P=[cosθsinθsinθcosθ]P=\begin{bmatrix}\cos\theta & \sin\theta \\-\sin\theta & \cos\theta\end{bmatrix}
  • 谱分解(Spectral Decomposition): 将方阵 AA 分解为 A=PΛPT=PΛP1A=P\Lambda P^T=P\Lambda P^{-1}。其中,Λ\Lambda 是由特征值构成的对角矩阵,而 PP 是由对应的特征向量构成的正交矩阵。通过谱分解,可以方便地进行矩阵的幂运算和求逆:
    • A1=PΛ1PTA^{-1}=P\Lambda^{-1}P^T
    • A1/2=PΛ1/2PTA^{1/2}=P\Lambda^{1/2}P^T
    • A1/2=PΛ1/2PTA^{-1/2}=P\Lambda^{-1/2}P^T
    • 谱分解可以实现任意方阵的变换
  • 奇异值分解(SVD): 任意矩阵 Am×kA_{m \times k} 都可以分解为 Am×k=Um×mΛm×kVk×kTA_{m \times k}=U_{m \times m}\Lambda_{m \times k}V^T_{k \times k}。其中 UUVV 是正交矩阵,Λ=concatenate{diag(λi),0}\Lambda=\text{concatenate}\{\text{diag}(\lambda_i), 0\}
    • 奇异值分解可以实现任意矩阵的变换,由于两个正交矩阵的维度可能不同,其变换视角需要在不同的维度下切换。
  • 曼哈顿距离的解读与变换: - 令 Y=Σ1/2XY=\Sigma^{-1/2}X,则 XTΣ1X=YTYX^T\Sigma^{-1}X=Y^TY
    • 在这个变换下,Var(Y)=IVar(Y)=I,即将数据变换到方差为单位矩阵的空间。

# 矩阵计算与不等式

  • 矩阵求导:
    • xAx=AT\frac{\partial}{\partial x}Ax=A^T
    • xxTA=A\frac{\partial}{\partial x}x^TA=A
    • xxTx=2x\frac{\partial}{\partial x}x^Tx=2x
    • xxTAx=Ax+ATx\frac{\partial}{\partial x}x^TAx=Ax+A^Tx
    • 矩阵的迹求导:tr(AB)A=BT\frac{\partial\text{tr}(AB)}{\partial A}=B^T
    • 矩阵的行列式求导:AA=AA1\frac{\partial|A|}{\partial A}=|A|A^{-1}
    • 矩阵的逆求导:tr(A1B)A=A1BTA1\frac{\partial\text{tr}(A^{-1}B)}{\partial A}=-A^{-1}B^TA^{-1}
  • 雅可比(Jacobian)矩阵:
    • (x,y)(u,v)=(xuyuxvyv)\frac{\partial(x,y)}{\partial(u,v)}=\begin{pmatrix}\frac{\partial x}{\partial u} & \frac{\partial y}{\partial u} \\\frac{\partial x}{\partial v} & \frac{\partial y}{\partial v}\end{pmatrix}
    • 复合函数的海森(Hessian)矩阵:Hfg(x)=Hg(x)Hf(g(x))H_{f \cdot g}(x)=H_g(x)\cdot H_f(g(x))
  • 重要矩阵不等式:
    • 柯西-施瓦茨(Cauchy-Schwarz)不等式:(xTy)2(xTx)(yTy)(x^Ty)^2\le(x^Tx)(y^Ty)
    • 广义柯西-施瓦茨不等式:(xTy)2(xTBx)(yTB1y)(x^Ty)^2\le(x^TBx)(y^TB^{-1}y)BB 为正定矩阵,等号在 x=cB1yx=cB^{-1}y 时成立)
    • 瑞利商(Rayleigh Quotient) 的最大/最小值:
      • maxx0xTBxxTx=λ1\max_{x\ne0}\frac{x^TBx}{x^Tx}=\lambda_1BB 为正定矩阵,等号在 x=ce1x=ce_1 时成立,e1e_1 为最大特征值 λ1\lambda_1 对应的特征向量)
      • minx0xTBxxTx=λp\min_{x\ne0}\frac{x^TBx}{x^Tx}=\lambda_pBB 为正定矩阵,等号在 x=cepx=ce_p 时成立,epe_p 为最小特征值 λp\lambda_p 对应的特征向量)
    • 广义瑞利商 的最大值:maxx0(xTd)2xTBx=dTB1d\max_{x\ne0}\frac{(x^Td)^2}{x^TBx}=d^TB^{-1}dBB 为正定矩阵,等号在 x=cB1dx=cB^{-1}d 时成立)

# 统计量的几何解读

  • 统计量的几何描述:
    • 样本均值 对应向量(nn 维)在向量 1n1_n 上的投影的长度。
    • 样本方差 正比于对应向量(nn 维)到向量 1n1_n 的距离的平方。
    • 样本相关系数 是对应向量(nn 维)到向量 1n1_n 的距离向量之间的夹角的余弦值。
  • 广义方差:
    • 通常定义为协方差矩阵的迹 tr(S)tr(S) 或行列式 S|S|
    • 几何描述:
      • S|S| 正比于样本向量所张成的体积的平方:S=(volume)2/np|S|=(\text{volume})^2/n^p
      • S=0|S|=0,意味着至少存在两个统计量之间的相关系数为 1,说明其中有些统计量是冗余的。
      • 广义方差与特征值的关系:S=i=1pλi|S|=\prod_{i=1}^p\lambda_itr(S)=i=1pλitr(S)=\sum_{i=1}^p\lambda_i
      • 等密度椭球体积: 由方程 (xxˉ)TS1(xxˉ)c2(x-\bar x)^TS^{-1}(x-\bar x)\le c^2 所定义的椭球体积为 kpS1/2cpk_p|S|^{1/2}c^p