# 概率模型与概率空间

# 样本空间与事件域

  • 样本空间(Ω\Omega 是所有可能结果的集合。
  • 事件域(FF,也称 σ\sigmaσ\sigma 代数,是样本空间某些子集构成的集合,满足以下条件:
    • 包含样本空间 Ω\Omega
    • 对取补集运算封闭。
    • 对可列并集运算封闭(根据 De Morgan 定律,也对可列交集运算封闭)。
  • 可测空间 由样本空间 Ω\Omega 和事件域 FF 构成。事件域中的每一个事件都是可以分配概率的。

# 概率测度与概率公理

  • 概率测度(PP 是定义在事件域 FF 上的函数,满足以下 概率公理
    1. 非负性P(A)0P(A) \ge 0
    2. 归一性P(Ω)=1P(\Omega) = 1
    3. 可列可加性:对于互不相交的事件序列 {Ai}i=1\{A_i\}_{i=1}^{\infty},有 P(i=1Ai)=i=1P(Ai)P(\bigcup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)
  • 概率空间 由可测空间和概率测度构成。

# 常用概率模型与组合

  • 几何概率概型:在几何空间内,事件的概率与其度量(长度、面积、体积)成正比。
  • 序贯模型:描述一系列相互关联的随机试验。
  • 抽屉原理:在组合问题中,将 mm 个球放入 rr 个盒子中。
  • 抽样方法
    • 放回有序抽样:从 NN 个元素中抽取 nn 次,每次取出的元素放回,结果考虑顺序。
    • 无放回有序抽样:从 NN 个元素中抽取 nn 次,每次取出的元素不放回,结果考虑顺序。
    • 放回无序抽样:从 NN 个元素中抽取 nn 次,每次取出的元素放回,结果不考虑顺序。
    • 无放回无序抽样:从 NN 个元素中抽取 nn 次,每次取出的元素不放回,结果不考虑顺序。
  • 多项式分布系数:将 mm 个球放入 rr 个盒子中,使得第 jj 个盒子中有 mjm_j 个球的组合数。

# 事件序列的极限与性质

  • 单调事件序列
    • 对于单调递增事件序列 {An}\{A_n\},有 P(limnAn)=limnP(An)P(\lim_{n\to\infty} A_n) = \lim_{n\to\infty} P(A_n)
    • 对于单调递减事件序列 {An}\{A_n\},有 P(limnAn)=limnP(An)P(\lim_{n\to\infty} A_n) = \lim_{n\to\infty} P(A_n)
  • 事件的上极限与下极限
    • 上极限 limsupAn=n=1k=nAk\lim \sup A_n = \bigcap_{n=1}^{\infty} \bigcup_{k=n}^{\infty} A_k:表示 ω\omega 属于无穷多个 AkA_k
    • 下极限 liminfAn=n=1k=nAk\lim \inf A_n = \bigcup_{n=1}^{\infty} \bigcap_{k=n}^{\infty} A_k:表示 ω\omega 属于除了有限个之外的所有 AkA_k
  • 极限存在:若上极限等于下极限,则称事件列 {An}\{A_n\} 的极限存在。
  • 极限不等式
    • P(limsupAn)limsupP(An)P(\lim \sup A_n) \ge \lim \sup P(A_n)
    • P(liminfAn)liminfP(An)P(\lim \inf A_n) \le \lim \inf P(A_n)
  • Borel-Cantelli 引理
    • 引理一:若事件列的概率之和有限,即 n=1P(An)<\sum_{n=1}^{\infty} P(A_n) < \infty,则 P(limsupAn)=0P(\lim \sup A_n) = 0
    • 引理二:若各事件相互独立且概率之和无限,即 {An}\{A_n\} 独立且 n=1P(An)=\sum_{n=1}^{\infty} P(A_n) = \infty,则 P(limsupAn)=1P(\lim \sup A_n) = 1
  • 互补关系P(limsupAn)+P(liminfAnc)=1P(\lim \sup A_n) + P(\lim \inf A_n^c) = 1
  • 应用举例:抛硬币的例子表明,以概率 1 会有无穷多次正面出现,几乎不可能在某一时刻之后一直出现反面。

# 条件概率与独立性

  • 条件概率:在事件 BB 发生的条件下,事件 AA 发生的概率定义为 P(AB)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)},前提是 P(B)>0P(B) > 0
  • 性质:条件概率依然是一个概率测度,所有关于概率的性质对条件概率都成立。
  • 乘法公式P(AB)=P(AB)P(B)P(A \cap B) = P(A|B)P(B)
  • 全概率公式:若 {Bi}\{B_i\} 是样本空间的一个划分,则 P(A)=iP(ABi)P(Bi)P(A) = \sum_{i} P(A|B_i)P(B_i)
  • 贝叶斯准则P(BjA)=P(ABj)P(Bj)iP(ABi)P(Bi)P(B_j|A) = \frac{P(A|B_j)P(B_j)}{\sum_{i} P(A|B_i)P(B_i)}
  • 独立性
    • 事件独立:事件 AABB 独立当且仅当 P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B)
    • 事件组相互独立:一组事件 {A1,A2,,An}\{A_1, A_2, \dots, A_n\} 相互独立,当且仅当对于任意子集 {Ai1,,Aik}\{A_{i_1}, \dots, A_{i_k}\},都有 P(j=1kAij)=j=1kP(Aij)P(\bigcap_{j=1}^k A_{i_j}) = \prod_{j=1}^k P(A_{i_j})
    • 事件组两两独立:对于任意 iji \ne j,事件 AiA_iAjA_j 独立。相互独立比两两独立更强。
    • 条件独立:在给定事件 CC 的条件下,事件 AABB 条件独立,当且仅当 P(ABC)=P(AC)P(BC)P(A \cap B | C) = P(A | C)P(B | C)

# 随机变量与随机向量

# 随机变量

  • 定义:一个从样本空间 Ω\Omega 到实数域 R\mathbb{R} 的映射 X:ΩRX: \Omega \to \mathbb{R}。更严谨地,它是一个可测函数,即对于实数域上的任意 Borel 集 BBX1(B)X^{-1}(B) 都是事件域 FF 中的事件。
  • Borel 域(BB:实数域上由所有形如 (a,b](a,b] 的区间生成的最小 σ\sigma 域,其元素称为 Borel 集
  • 可测性:随机变量经过实数域上的可测函数映射后仍然是可测函数。
  • 随机变量独立性:随机变量 XXYY 相互独立,当且仅当对于任意 Borel 集 AABBP(XA,YB)=P(XA)P(YB)P(X \in A, Y \in B) = P(X \in A)P(Y \in B)
  • 独立同分布(i.i.d.):随机变量相互独立且具有相同的概率分布。

# 随机向量

  • 定义:从样本空间 Ω\Omegann 维欧氏空间 Rn\mathbb{R}^n 的映射。
  • 联合分布函数:随机向量 (X1,,Xn)(X_1, \dots, X_n) 的联合分布函数定义为 F(x1,,xn)=P(X1x1,,Xnxn)F(x_1, \dots, x_n) = P(X_1 \le x_1, \dots, X_n \le x_n)
  • 边缘分布
    • 联合分布列:离散型随机向量的联合概率分布。
    • 边缘分布列:从联合分布列中求得的单个随机变量的分布列。
    • 联合概率密度函数:连续型随机向量的联合概率分布。
    • 边缘概率密度函数:从联合密度中积分求得的单个随机变量的密度函数。
  • 独立性判定
    • 离散型XXYY 独立当且仅当 P(X=xi,Y=yj)=P(X=xi)P(Y=yj)P(X=x_i, Y=y_j) = P(X=x_i)P(Y=y_j) 对所有 i,ji, j 成立。
    • 连续型XXYY 独立当且仅当其联合密度函数可以分解为边缘密度函数的乘积,即 f(x,y)=fX(x)fY(y)f(x,y) = f_X(x)f_Y(y)
  • 边缘分布与联合分布:边缘分布不能唯一决定联合分布。例如,XXYY 均匀分布在单位圆上,它们不独立但边缘分布相同。

# 随机变量函数与随机向量函数

  • 概率分布函数(CDF)F(x)=P(Xx)F(x) = P(X \le x),性质:单调不减,右连续。CDF 可以确定离散型随机变量的概率分布列(PMF),连续型随机变量的概率密度函数(PDF)几乎可以确定CDF,反之亦然。
  • 连续型随机变量的函数映射定理:描述连续型随机变量经过函数映射后其概率密度函数如何变化。
  • 连续型随机向量的函数映射定理:描述连续型随机向量经过函数映射后其联合概率密度函数如何变化,常用于求 X+YX+YXYX-Y 等随机变量的分布。

# 常见概率分布

# 离散型分布

  • 伯努利分布:单次试验,只有成功和失败两种结果。
  • 二项分布nn 次独立伯努利试验中成功的次数。
  • 几何分布:首次成功所需试验的次数。具有 无记忆性
  • 帕斯卡分布:第 kk 次成功所需试验的总次数。
  • 负二项分布:第 kk 次成功前失败的次数。
  • 超几何分布:从有限总体中无放回抽取,得到某类特定元素的次数。
  • 泊松分布:单位时间内独立随机事件发生的次数。
  • 多项分布:二项分布的推广,有多个结果。

# 连续型分布

  • 均匀分布:在给定区间内,任何子区间发生的概率与长度成正比。
  • 指数分布:泊松过程中,事件发生的时间间隔。具有 无记忆性
  • 正态分布:最重要的分布之一,由均值和方差确定。
  • 伽马分布:指数分布的推广,描述事件发生的时间。
  • 贝塔分布:描述在 (0,1)(0,1) 区间内的随机变量。
  • 威布尔分布:常用于可靠性分析,描述故障时间。
  • 柯西分布:一个特殊的分布,期望不存在。
  • 卡方分布、学生t分布、F分布:在数理统计中广泛应用的三个重要分布。

# 期望、方差与协方差

# 期望与方差

  • 期望:衡量随机变量的平均值。
    • 线性性质E(aX+bY)=aE(X)+bE(Y)E(aX+bY) = aE(X)+bE(Y)
    • 独立性:若 X,YX, Y 独立,则 E(XY)=E(X)E(Y)E(XY) = E(X)E(Y)
    • 期望为0E(X)=0E(|X|) = 0 当且仅当 P(X=0)=1P(X=0)=1
    • 原点矩E(Xk)E(X^k)
    • 中心矩E((XE(X))k)E((X-E(X))^k)
  • 方差:衡量随机变量的离散程度。
    • 定义Var(X)=E((XE(X))2)Var(X) = E((X-E(X))^2),前提是期望有限。
    • 二次线性性质Var(aX+b)=a2Var(X)Var(aX+b) = a^2Var(X)
    • 方差为0Var(X)=0Var(X) = 0 当且仅当 P(X=c)=1P(X=c)=1
    • 独立性:若 X,YX, Y 独立,则 Var(X+Y)=Var(X)+Var(Y)Var(X+Y) = Var(X)+Var(Y)

# 不等式

  • 马尔科夫不等式P(Xa)E(X)aP(|X| \ge a) \le \frac{E(|X|)}{a}
  • 切比雪夫不等式P(XE(X)k)Var(X)k2P(|X-E(X)| \ge k) \le \frac{Var(X)}{k^2}
  • 内积不等式(柯西-施瓦茨不等式)[E(XY)]2E(X2)E(Y2)[E(XY)]^2 \le E(X^2)E(Y^2)
  • 詹森不等式:对于凸函数 fff(E(X))E(f(X))f(E(X)) \le E(f(X))

# 协方差与相关系数

  • 协方差:衡量两个随机变量线性关系的强度和方向。
    • 定义Cov(X,Y)=E((XE(X))(YE(Y)))Cov(X,Y) = E((X-E(X))(Y-E(Y)))
    • 计算公式Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y) = E(XY) - E(X)E(Y)
    • 双线性Cov(aX+bY,cZ+dW)=acCov(X,Z)+adCov(X,W)+bcCov(Y,Z)+bdCov(Y,W)Cov(aX+bY, cZ+dW) = acCov(X,Z)+adCov(X,W)+bcCov(Y,Z)+bdCov(Y,W)
    • 方差公式Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y)
  • 相关系数:协方差的标准化版本,取值在 [1,1][-1,1] 之间。
    • 定义ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}
  • 独立与相关:独立蕴含不相关,但不相关不蕴含独立。
  • 协方差矩阵:描述随机向量内部各分量之间协方差的矩阵。

# 条件期望与条件方差

  • 条件在事件上的期望:在给定事件 BB 发生的条件下,随机变量 XX 的期望。
    • 非负离散型E(X)=k=1P(Xk)E(X) = \sum_{k=1}^\infty P(X \ge k)
    • 非负连续型E(X)=0(1F(x))dxE(X) = \int_0^\infty (1-F(x))dx
  • 全期望定理E(X)=E(E(XY))E(X) = E(E(X|Y))
  • 条件在随机变量上的期望E(XY)E(X|Y) 是一个关于随机变量 YY 的函数,表示在 YY 取定值 yy 的条件下 XX 的期望。
  • 条件方差:在给定随机变量 YY 的条件下,随机变量 XX 的方差。
  • 全方差法则Var(X)=E(Var(XY))+Var(E(XY))Var(X) = E(Var(X|Y)) + Var(E(X|Y))

# 概率母函数、矩母函数与特征函数

# 概率母函数(PGF)

  • 定义:对非负整数随机变量 XX,定义 GX(t)=E(tX)=k=0P(X=k)tkG_X(t) = E(t^X) = \sum_{k=0}^\infty P(X=k)t^k
  • 性质
    • 可逆性GX(t)G_X(t) 可以唯一确定 XX 的概率分布。
    • 求概率P(X=k)=GX(k)(0)k!P(X=k) = \frac{G_X^{(k)}(0)}{k!}
    • 求期望、方差E(X)=GX(1)E(X) = G_X'(1)Var(X)=GX(1)+GX(1)(GX(1))2Var(X) = G_X''(1)+G_X'(1)-(G_X'(1))^2
    • 独立变量之和:若 X,YX,Y 独立,则 GX+Y(t)=GX(t)GY(t)G_{X+Y}(t) = G_X(t)G_Y(t)
    • 随机个数和Gi=1NXi(t)=GN(GX(t))G_{\sum_{i=1}^N X_i}(t) = G_N(G_X(t))

# 矩母函数(MGF)

  • 定义:对随机变量 XX,定义 MX(t)=E(etX)M_X(t) = E(e^{tX})
  • 性质
    • 可逆性:若 MX(t)M_X(t) 存在,则它可唯一确定 XX 的概率分布。
    • 求矩E(Xk)=MX(k)(0)E(X^k) = M_X^{(k)}(0)
    • 独立变量之和:若 X,YX,Y 独立,则 MX+Y(t)=MX(t)MY(t)M_{X+Y}(t) = M_X(t)M_Y(t)
    • 线性变换MaX+b(t)=ebtMX(at)M_{aX+b}(t) = e^{bt}M_X(at)

# 特征函数(CF)

  • 定义:对随机变量 XX,定义 ϕX(t)=E(eitX)\phi_X(t) = E(e^{itX})
  • 性质
    • 可逆性:总是存在,且可唯一确定 XX 的概率分布。
    • 独立变量之和:若 X,YX,Y 独立,则 ϕX+Y(t)=ϕX(t)ϕY(t)\phi_{X+Y}(t) = \phi_X(t)\phi_Y(t)
    • 线性变换ϕaX+b(t)=eibtϕX(at)\phi_{aX+b}(t) = e^{ibt}\phi_X(at)

# 极限定理与收敛性

# 收敛类型

  • 依分布收敛{Xn}\{X_n\} 依分布收敛于 XX,当且仅当 FXn(x)FX(x)F_{X_n}(x) \to F_X(x) 在所有 FX(x)F_X(x) 的连续点上成立。
  • 连续性定理:一个序列的特征函数收敛到某个函数的特征函数,则该序列依分布收敛。

# 大数定律与中心极限定理

  • 弱大数定律:当 nn \to \infty 时,样本均值 Xˉn\bar{X}_n 依概率收敛到期望 μ\mu
  • 强大数定律:当 nn \to \infty 时,样本均值 Xˉn\bar{X}_n 几乎必然收敛到期望 μ\mu
  • 中心极限定理:当 nn \to \infty 时,独立同分布随机变量序列的标准化样本均值依分布收敛于标准正态分布。
  • 连续映射定理:若 XnX_n 依分布收敛到 XX,且 gg 是连续函数,则 g(Xn)g(X_n) 依分布收敛到 g(X)g(X)
  • 斯卢茨基(Slutsky)定理:结合依分布收敛和依概率收敛,处理随机变量序列的和、积、商。

# 次序统计量与分位数

  • 次序统计量:将一组随机变量从小到大排列后得到的统计量。
  • p 分位数:满足 P(Xxp)pP(X \le x_p) \ge pP(Xxp)1pP(X \ge x_p) \ge 1-p 的数 xpx_p