# 概述

高斯过程是一个在统计学和机器学习中非常重要的概念,它是一种随机过程。一个随机过程 {X(t),tT}\{X(t), t \in T\} 被称为高斯过程,如果对于任意一个有限的时间点集合 t1,t2,,tnTt_1, t_2, \cdots, t_n \in T,对应的随机向量 (X(t1),X(t2),,X(tn))T\left( X(t_1), X(t_2), \cdots, X(t_n)\right)^T 都服从 nn 元高斯分布(或称多元正态分布)。

多元高斯分布 XN(μ,Σ)\mathbf{X} \sim N(\mathbf{\mu}, \mathbf{\Sigma}) 的概率密度函数定义如下:

fX(x)=1(2π)n/2Σ1/2exp(12(xμ)TΣ1(xμ))f_{\mathbf{X}}(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}|\mathbf{\Sigma}|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \right)

其中,μ\mathbf{\mu} 是均值向量,Σ\mathbf{\Sigma} 是协方差矩阵。


# 多元高斯分布的特征函数与性质

# 特征函数

特征函数是概率密度函数的傅里叶反变换,它们之间是相互唯一确定的。一个多元随机向量 X\mathbf{X} 的特征函数定义为:

ϕX(t)=E(ejtTX)\phi_{\mathbf{X}}(\mathbf{t}) = E\left( e^{j\mathbf{t}^T \mathbf{X}} \right)

多元高斯分布的特征函数具有简洁的形式:

ϕX(t)=exp(jtTμ12tTΣt)\phi_{\mathbf{X}}(\mathbf{t}) = \exp\left( j\mathbf{t}^T \mathbf{\mu} - \frac{1}{2} \mathbf{t}^T \mathbf{\Sigma} \mathbf{t} \right)

基于此,多元高斯随机变量也可以通过特征函数来定义:如果一个随机变量 X\mathbf{X} 的特征函数满足上述形式,其中 Σ\mathbf{\Sigma} 是一个非负定矩阵(即使不满秩),则称 X\mathbf{X} 是一个多元高斯随机变量。

此外,特征函数还有以下性质:

  • 混合矩的计算: 如果混合矩 E[X1k1X2k2Xnkn]E[X_1^{k_1} X_2^{k_2} \cdots X_n^{k_n}] 存在,则可通过特征函数求得:

    E[X1k1X2k2Xnkn]=(j)k1+k2++knϕ(t1,t2,,tn)t1k1t2k2tnknt1=t2==tn=0E[X_1^{k_1} X_2^{k_2} \cdots X_n^{k_n}] = (-j)^{k_1+k_2+\cdots+k_n} \frac{\partial \phi(t_1, t_2, \cdots, t_n)}{\partial t_1^{k_1} \partial t_2^{k_2} \cdots \partial t_n^{k_n}} \bigg|_{t_1=t_2=\cdots=t_n=0}

  • 线性变换: 随机向量 X\mathbf{X} 经过线性变换 AX+b\mathbf{A}\mathbf{X} + \mathbf{b} 后的特征函数为:

    ϕAX+b(t)=ϕX(ATt)ejtTb\phi_{\mathbf{A}\mathbf{X} + \mathbf{b}}(\mathbf{t}) = \phi_{\mathbf{X}}(\mathbf{A}^T \mathbf{t}) e^{j\mathbf{t}^T \mathbf{b}}

  • 独立性: 随机变量 X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立当且仅当其联合特征函数等于各自边缘特征函数的乘积:

    ϕX(t)=i=1nϕXi(ti)\phi_{\mathbf{X}}(\mathbf{t}) = \prod_{i=1}^{n} \phi_{X_i}(t_i)

  • 极限性质: 如果一个高斯随机变量序列依分布收敛到一个随机变量 X\mathbf{X},那么 X\mathbf{X} 也是一个高斯随机变量。

# 主要性质

多元高斯分布具有许多重要的性质:

  • 线性变换: 如果 XN(μ,Σ)\mathbf{X} \sim N(\mathbf{\mu}, \mathbf{\Sigma}),那么其线性变换 AX+b\mathbf{AX} + \mathbf{b} 仍然服从高斯分布,即 AX+bN(Aμ+b,AΣAT)\mathbf{AX} + \mathbf{b} \sim N(\mathbf{A\mu} + \mathbf{b}, \mathbf{A\Sigma A}^T)
  • 边缘分布: 多元高斯分布的任意子集仍然服从高斯分布。例如,如果随机向量 X=(XA,XB)T\mathbf{X} = (\mathbf{X}_A, \mathbf{X}_B)^T 服从高斯分布,那么其子向量 XA\mathbf{X}_AXB\mathbf{X}_B 也都服从高斯分布。
  • 独立性: 如果 X=(XA,XB)T\mathbf{X} = (\mathbf{X}_A, \mathbf{X}_B)^T 服从高斯分布,那么 XA\mathbf{X}_AXB\mathbf{X}_B 相互独立的充要条件是它们的协方差矩阵为分块对角矩阵,即 ΣAB=0\mathbf{\Sigma}_{AB} = \mathbf{0}
  • 条件分布: 多元高斯分布的条件分布也是高斯分布。例如,如果 X=(XA,XB)T\mathbf{X} = (\mathbf{X}_A, \mathbf{X}_B)^T 服从高斯分布,那么给定 XB\mathbf{X}_BXA\mathbf{X}_A 的条件分布为:

    fXAXB(xAxB)=N(μAB,ΣAB)f_{\mathbf{X}_A \mid \mathbf{X}_B}(\mathbf{x}_A \mid \mathbf{x}_B) = N(\mathbf{\mu}_{A \mid B}, \mathbf{\Sigma}_{A \mid B})

    其中,均值和协方差矩阵分别为:

    μAB=μA+ΣABΣB1(xBμB)ΣAB=ΣAΣABΣB1ΣBA\mathbf{\mu}_{A \mid B} = \mathbf{\mu}_A + \mathbf{\Sigma}_{AB} \mathbf{\Sigma}_{B}^{-1} (\mathbf{x}_B - \mathbf{\mu}_B) \\ \mathbf{\Sigma}_{A \mid B} = \mathbf{\Sigma}_A - \mathbf{\Sigma}_{AB} \mathbf{\Sigma}_{B}^{-1} \mathbf{\Sigma}_{BA}

  • 高阶矩: 多元高斯分布的所有高阶矩都可以完全由其一阶(均值)和二阶(协方差)矩来确定。一个典型的例子是四阶矩的计算,如:

    E[X1X2X3X4]=E[X1X2]E[X3X4]+E[X1X3]E[X2X4]+E[X1X4]E[X2X3]E[X_1 X_2 X_3 X_4] = E[X_1 X_2] E[X_3 X_4] + E[X_1 X_3] E[X_2 X_4] + E[X_1 X_4] E[X_2 X_3]


# 高斯过程的性质与应用

# 实高斯过程的性质

一个实高斯过程 {X(t)}\{ X(t) \} 完全由其均值函数 μX(t)=E[X(t)]\mu_X(t) = E[X(t)] 和协方差函数 CX(t,t)=Cov(X(t),X(t))C_X(t, t^\prime) = \text{Cov}(X(t), X(t^\prime)) 确定,通常记为 {X(t)}GP(μX(t),CX(t,t))\{ X(t) \} \sim \mathcal G \mathcal P(\mu_X(t), C_X(t, t^\prime))

  • 平稳性: 对于实高斯过程,严平稳等价于宽平稳。
  • 可导性: 如果高斯过程 {X(t)}\{ X(t) \} 是可导的,那么其导数过程 {X(t)}\{ X^\prime(t) \} 也是一个高斯过程。
  • 线性系统: 如果一个高斯过程 {X(t),t[a,b]}\{ X(t), t\in [a, b] \} 通过一个一般线性系统 h(t,τ)h(t, \tau),即 Y(t)=abX(τ)h(t,τ)dτY(t) = \int_{a}^{b} X(\tau) h(t, \tau) d\tau,那么输出过程 {Y(t)}\{ Y(t) \} 也是高斯过程。此外,联合过程 {[X(t)Y(t)]}\{ \begin{bmatrix} X(t) \\ Y(t) \end{bmatrix} \} 也是高斯过程。

# 带通高斯过程

带通高斯过程是高斯过程在信号处理中的一个应用,其包络和相位服从特殊的分布。

  • 莱斯分布和瑞利分布:X,YX, Y 是相互独立、联合高斯分布的随机变量,均值分别为 μ1=ρcosϕ,μ2=ρsinϕ\mu_1 = \rho \cos\phi, \mu_2 = \rho \sin\phi,方差同为 σ2\sigma^2。它们的包络 V=X2+Y2V = \sqrt{X^2+Y^2} 和相位 Θ=arctan(Y/X)\Theta = \arctan(Y/X) 的联合概率密度函数为:

    fV,Θ(v,θ)=v2πσ2exp(12σ2(v2+ρ22ρvcos(θϕ)))f_{V, \Theta}(v, \theta) = \frac{v}{2 \pi \sigma^2} \exp\left( -\frac{1}{2\sigma^2} \left( v^2 + \rho^2 - 2\rho v \cos(\theta - \phi) \right) \right)

    其中,包络 VV 的边缘概率密度函数为:

    fV(v)=vσ2exp(v2+ρ22σ2)I0(ρvσ2)f_V(v) = \frac{v}{\sigma^2} \exp\left( -\frac{v^2 + \rho^2}{2 \sigma^2} \right) I_0\left( \frac{\rho v}{\sigma^2} \right)

    这被称为参数为 ρ\rhoσ\sigma莱斯分布,其中 I0()I_0(\cdot) 是零阶修正贝塞尔函数。
    当参数 ρ=0\rho = 0 时,莱斯分布退化为 瑞利分布

    fV(v)=vσ2exp(v22σ2)f_V(v) = \frac{v}{\sigma^2} \exp\left( -\frac{v^2}{2\sigma^2} \right)

  • 零均值带通高斯过程(略)。
  • 随机相位正弦波信号叠加零均值带通高斯过程(略)。

# 基于高斯过程的回归分析

高斯过程在机器学习中常被用于 高斯过程回归,这是一种非参数化的贝叶斯方法,用于解决回归问题。它不同于传统的回归方法:

  • 最小二乘法线性回归(略)。
  • 贝叶斯线性回归(略)。
  • 非线性回归(略)。
  • 高斯过程回归(略)。