# 数学基础
# 傅里叶变换
傅里叶变换 (F) 是一种将信号从时域转换到频域的数学工具,其逆变换 (F−1) 则将信号从频域转换回时域。
-
傅里叶变换公式
X(f)=F{x(t)}=∫−∞∞x(t)e−j2πftdt
-
傅里叶逆变换公式
x(t)=F−1{X(f)}=∫−∞∞X(f)ej2πtfdf
# 常用傅里叶变换对
下面列举了一些常用函数的傅里叶变换。
-
狄拉克函数 δ(t)
F{δ(t)}=1
F{δ(t−τ)}=e−j2πτf
F{δT(t)}=F{n=−∞∑∞δ(t−nT)}=T1n=−∞∑∞δ(f−Tn)
-
常数函数 1
F{1}=δ(f)
-
余弦函数 cos(2πf0t)
F{cos(2πf0t)}=21[δ(f−f0)+δ(f+f0)]
-
辛克函数 sinc(t)
定义:sinc(t)=πtsin(πt)
F{sinc(t)}=rect(f)=I∣f∣≤0.5
F−1{I∣f∣≤W}=2W2πWtsin(2πWt)=2Wsinc(2Wt)
这里 I∣f∣≤W 表示一个门函数或矩形函数,当 ∣f∣≤W 时值为 1,否则为 0。
# 信息论基础
# 熵与信息量
-
事件的信息量
某个事件 X=xk 发生时所包含的信息量,定义为:
H(X=xk)=−logpk
其中 pk 是该事件发生的概率。
-
独立事件的信息量
对于一组相互独立的事件 x1,x2,…,xn
H(x1,x2,…,xn)=k=1∑nH(X=xk)
-
熵(平均信息量)
随机变量 X 的熵,表示其所有可能事件发生时的平均信息量,定义为:
H(X)=−k∑pklogpk
其中 pk 是随机变量 X 取值为 xk 的概率。
-
熵的界限
对于一个有 K 个可能取值的随机变量 X,其熵的取值范围为:
0≤H(X)≤logK
当且仅当随机变量的每个取值概率相等,即 pk=1/K 时,熵取最大值 logK。
-
霍夫曼编码
霍夫曼编码的平均码长 Lˉ 满足:
H(S)≤Lˉ=∑pklk<H(S)+1
其中 H(S) 是信息源的熵,lk 是第 k 个符号的码字长度。
霍夫曼编码的效率 η 定义为:
η=LˉH(S)≤1
# 联合熵与条件熵
-
联合熵
联合熵 H(XY) 衡量一对随机变量 (X,Y) 的不确定性,定义为:
H(XY)=−i∑j∑pijlogpij
联合熵与条件熵和边际熵的关系为:
H(XY)=H(X)+H(Y∣X)
或
H(XY)=H(Y)+H(X∣Y)
-
条件熵
条件熵 H(Y∣X) 表示在已知随机变量 X 的情况下,随机变量 Y 的不确定性,定义为:
H(Y∣X)=−i∑j∑pijlogpj∣i
-
独立随机变量的熵
当随机变量 X 和 Y 相互独立(X⊥Y)时,它们之间的关系满足以下等价条件:
H(XY)=H(X)+H(Y)⟺H(Y∣X)=H(Y)⟺I(X;Y)=0
-
函数关系随机变量的熵
当随机变量 Y 是 X 的函数(Y=f(X))时,它们之间的关系满足以下等价条件:
H(XY)=H(X)⟺H(Y∣X)=0
-
熵的平移不变性
对于任意两个随机变量 X 和 Y:
H(X+Y∣X)=H(Y∣X)
# 互信息与相对熵
-
互信息
互信息 I(X;Y) 衡量随机变量 X 和 Y 之间的相互依赖程度或共享的信息量,其定义和性质如下:
I(X;Y)=i∑j∑pijlogpipjpij
互信息和熵之间的关系:
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(XY)≥0
-
相对熵(KL 散度)
相对熵 D(p∣∣q) 衡量两个概率分布 p 和 q 之间的差异,也称为 KL 散度(Kullback-Leibler divergence)。
D(p∣∣q)=k∑pklogqkpk≥0
当且仅当两个分布完全相同时 (p=q),相对熵取等号,值为 0。
# 信道容量
信道容量 C 表示信道可靠传输信息的最大速率,通常以比特/单位信息为单位。
-
可辨别信息数目 N
对于传输 K 个独立同分布的信息,每个信息有 n 种可能的取值,观察到输出 Y 时,能够辨别的输入 X 的最大种类数 N 为:
N=2Kmaxp(X)I(X;Y)
-
信道容量 C
信道容量是单位信息所能获得的可辨别信息数目。
以 n 为底:
C=K→∞limKlognN=log2nmaxp(x)I(X;Y)
以 2 为底(比特/单位信息):
Cbit=K→∞limKlog2N=p(x)maxI(X;Y)
例如,对于一个完全确定的信道,即输出 Y 是输入 X 的函数 (Y=f(X)),则 H(Y∣X)=0,因此 I(X;Y)=H(Y)≤log2n。此时可辨别的信息种类数 N=2KmaxI(X;Y)=nK。信道容量 Cbit=maxI(X;Y)=log2n,而 C=maxI(X;Y)/log2n=1。
一个常见的例子是 二元对称信道(BSC, Binary Symmetric Channel)。
# 微分熵
当随机变量为连续型时,相应的概念称为微分熵、联合微分熵等。
-
微分熵
连续随机变量 X 的微分熵,定义为:
h(X)=−∫−∞∞p(x)logp(x)dx
-
联合微分熵、条件微分熵与互信息
h(XY)=−∫p(x,y)logp(x,y)dxdy
h(Y∣X)=−∫p(x,y)logp(y∣x)dxdy
I(X;Y)=∫p(x,y)logp(x)p(y)p(x,y)dxdy
# 微分熵的性质
-
对于一个范围有限的随机变量,其微分熵存在上界。若 ∣X∣≤A/2,则:
h(X)≤logA
-
对于方差有限的随机变量,其微分熵存在上界。若 E[X2]≤σ2,则:
h(X)≤21log(2πeσ2)
-
微分熵具有伸缩性质。
h(aX)=h(X)+log∣a∣
# 正态分布的微分熵
-
一维正态分布
若随机变量 X 服从均值为 μ、方差为 σ2 的正态分布 N(μ,σ2),其概率密度函数为 p(x)=2πσ21e−2σ2(x−μ)2,则其微分熵为:
h(X)=21log(2πeσ2)
-
多维正态分布
若 n 维随机向量 X 服从均值为 μ、协方差矩阵为 Σ 的多维正态分布 N(μ,Σ),其概率密度函数为 p(x)=(2π)n∣Σ∣1e−2(x−μ)TΣ−1(x−μ),则其微分熵为:
h(X)=21log[(2πe)n∣Σ∣]