Probability Theory
Probability Theory
本篇笔记主要回顾一下概率论的相关内容。全文没有严格的上下文关系:)
催更|辅导|私塾兼职|联系偷偷:LifeGoesOn_Rio
1. 概率论中集合运算的关系
1.1. 基本集合运算定义
并集(Union):
$A \cup B = {x \mid x \in A \text{ or } x \in B}$交集(Intersection):
$A \cap B = {x \mid x \in A \text{ and } x \in B}$补集(Complement):
$A^c = {x \mid x \notin A}$差集(Difference):
$A \setminus B = {x \mid x \in A \text{ and } x \notin B}$对称差(Symmetric Difference):
$A \triangle B = (A \setminus B) \cup (B \setminus A)$
1.2. 基本关系与恒等律
幂等律:
$$
A \cup A = A,\quad A \cap A = A
$$交换律:
$$
A \cup B = B \cup A,\quad A \cap B = B \cap A
$$结合律:
$$
(A \cup B) \cup C = A \cup (B \cup C) \
(A \cap B) \cap C = A \cap (B \cap C)
$$分配律:
$$
A \cup (B \cap C) = (A \cup B) \cap (A \cup C) \
A \cap (B \cup C) = (A \cap B) \cup (A \cap C)
$$吸收律:
$$
A \cup (A \cap B) = A,\quad A \cap (A \cup B) = A
$$双重补集:
$$
(A^c)^c = A
$$
1.3. 德摩根律(De Morgan’s Laws)
对于两个集合:
$$
(A \cup B)^c = A^c \cap B^c \
(A \cap B)^c = A^c \cup B^c
$$对于有限多个集合:
$$
\left( \bigcup_{i=1}^{n} A_i \right)^c = \bigcap_{i=1}^{n} A_i^c \
\left( \bigcap_{i=1}^{n} A_i \right)^c = \bigcup_{i=1}^{n} A_i^c
$$
1.4. 空集与全集关系(以样本空间 $\Omega$ 为全集)
空集性质:
$$
A \cup \varnothing = A,\quad A \cap \varnothing = \varnothing
$$全集性质:
$$
A \cup \Omega = \Omega,\quad A \cap \Omega = A
$$补集相关:
$$
A \cup A^c = \Omega,\quad A \cap A^c = \varnothing
$$
1.5. 包含与等价关系
包含关系:
$A \subseteq B \Leftrightarrow A \cup B = B \text{ 且 } A \cap B = A$等价关系:
$A = B \Leftrightarrow A \subseteq B \text{ 且 } B \subseteq A$
1.6. 其他常用运算公式
差集转化为交集与补集:
$$
A \setminus B = A \cap B^c
$$对称差公式:
$$
A \triangle B = (A \cup B) \setminus (A \cap B)
$$差集运算公式:
$$
A \setminus B = A \cap B^c = A \setminus (A \cap B) = A(1 - B)
$$
2. 概率的基本性质与公式
概率是描述某一事件发生可能性的数学工具。在概率论中,概率满足以下基本公理和由此推导出的一系列常用公式。
2.1 概率的三大公理(Kolmogorov 公理)
设 $\Omega$ 为样本空间,$\mathcal{F}$ 为事件集合,$P(\cdot)$ 为概率函数,则概率满足以下 三条基本公理:
非负性(Non-negativity):
$$
\forall A \in \mathcal{F}, \quad P(A) \geq 0
$$规范性(Normalization):
$$
P(\Omega) = 1
$$可列可加性(Countable Additivity):
若 $A_1, A_2, A_3, \dots$ 两两互不相交(即 $A_i \cap A_j = \varnothing$,$i \ne j$),则:
$$
P\left(\bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i)
$$
2.2 基本推论与常用公式
1. 空集的概率为 0:
$$
P(\varnothing) = 0
$$
2. 子集关系:
若 $A \subseteq B$,则:
$$
P(A) \leq P(B)
$$
3. 补集公式:
$$
P(A^c) = 1 - P(A)
$$
4. 有限可加性(两个事件的并):
对于任意事件 $A$ 和 $B$,
$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$
如果 $A$ 和 $B$ 互斥(即 $A \cap B = \varnothing$),则:
$$
P(A \cup B) = P(A) + P(B)
$$
5. 差集的概率:
$$
P(A \setminus B) = P(A) - P(A \cap B)
$$
6. 三事件并的公式:
对于任意事件 $A, B, C$:
$$
\begin{aligned}
P(A \cup B \cup C) &= P(A) + P(B) + P(C) \\
&\quad - P(A \cap B) - P(A \cap C) - P(B \cap C) \\
&\quad + P(A \cap B \cap C)
\end{aligned}
$$
7. 有限全集划分公式(全概率定理基础形式):
若 $A_1, A_2, \dots, A_n$ 构成不相交且覆盖全集的划分(即 $\bigcup A_i = \Omega$ 且 $A_i \cap A_j = \varnothing$,$i \ne j$),则对于任意事件 $B$:
$$
P(B) = \sum_{i=1}^{n} P(B \cap A_i)
$$
2.3 概率的范围限制
概率总是介于 0 与 1 之间:
$$
0 \leq P(A) \leq 1
$$
3. 条件概率与贝叶斯公式(Conditional Probability and Bayes’ Theorem)
3.1 条件概率的定义
设事件 $A$ 和 $B$ 满足 $P(B) > 0$,则 在事件 $B$ 发生的条件下,事件 $A$ 发生的概率,称为条件概率,记作 $P(A \mid B)$:
$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)}
$$
同理,也有:
$$
P(B \mid A) = \frac{P(A \cap B)}{P(A)}
$$
条件概率体现的是 “在某个背景下概率的重新评估”。
3.2 条件概率的性质
非负性:
$$
P(A \mid B) \geq 0
$$规范性($B$ 发生的背景下):
$$
P(B \mid B) = 1
$$可加性:
若 $A_1, A_2$ 不相交,则:$$
P(A_1 \cup A_2 \mid B) = P(A_1 \mid B) + P(A_2 \mid B)
$$
3.3 乘法公式(乘法定理)
由条件概率定义可得:
$$
P(A \cap B) = P(B) \cdot P(A \mid B) = P(A) \cdot P(B \mid A)
$$
如果有多个事件 $A_1, A_2, \dots, A_n$,则:
$$
P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots
$$
3.4 全概率公式(Law of Total Probability)
设 ${B_1, B_2, \dots, B_n}$ 是一个完备事件组(划分样本空间的互不相交事件)且 $P(B_i) > 0$,则对于任意事件 $A$ 有:
$$
P(A) = \sum_{i=1}^n P(B_i) \cdot P(A \mid B_i)
$$
这表示从多个路径计算 $A$ 的“总概率”。
3.5 贝叶斯公式(Bayes’ Theorem)
贝叶斯公式用于在已知结果的情况下“倒推出原因”的概率。它是全概率公式的逆向应用。
设 ${B_1, B_2, \dots, B_n}$ 是一个样本空间的划分,$P(B_i) > 0$,且 $P(A) > 0$,则:
$$
P(B_i \mid A) = \frac{P(B_i) \cdot P(A \mid B_i)}{\sum_{j=1}^{n} P(B_j) \cdot P(A \mid B_j)}
$$
🔍 通俗理解:已知事件 $A$ 发生,求“是谁导致了 $A$”,概率最大的那个 $B_i$ 通常被认为是最可能的原因。
3.6 示例:诊断问题中的贝叶斯公式
某疾病的患病率为 $P(D) = 0.01$
检测准确率如下:
- 真阳性率:$P(\text{Pos} \mid D) = 0.99$
- 假阳性率:$P(\text{Pos} \mid D^c) = 0.05$
问:一个人检测为阳性,实际患病的概率是多少?即求:
$$
P(D \mid \text{Pos}) = \frac{P(D) \cdot P(\text{Pos} \mid D)}{P(D) \cdot P(\text{Pos} \mid D) + P(D^c) \cdot P(\text{Pos} \mid D^c)}
$$
代入得:
$$
P(D \mid \text{Pos}) = \frac{0.01 \cdot 0.99}{0.01 \cdot 0.99 + 0.99 \cdot 0.05} \approx 0.1667
$$
✅ 即使测试很准,但因为总体患病率低,**阳性者真的患病的概率只有约 16.7%**,这就是贝叶斯定理的威力。
4. 全概率公式(Law of Total Probability)
4.1 定义与背景
在很多实际问题中,我们很难直接计算一个事件 $A$ 的概率,但我们可以将样本空间划分成若干个互不相交的子事件 $B_1, B_2, \dots, B_n$,然后利用这些子事件来间接求 $A$ 的概率,这就是全概率公式的思想。
4.2 全概率公式内容
设事件组 ${B_1, B_2, \dots, B_n}$ 满足:
- 两两互不相交(即 $B_i \cap B_j = \varnothing,\ i \ne j$)
- 它们构成对样本空间 $\Omega$ 的一个划分(即 $\bigcup_{i=1}^n B_i = \Omega$)
- 每个 $B_i$ 的概率都大于 0,即 $P(B_i) > 0$
则对于任意事件 $A$,有:
$$
P(A) = \sum_{i=1}^{n} P(B_i) \cdot P(A \mid B_i)
$$
4.3 通俗理解
可以理解为:
“事件 $A$ 的发生可能由若干种不同的原因 $B_i$ 导致,分别计算在每种原因下 $A$ 的条件概率,然后按每种原因发生的概率加权求和。”
4.4 推导思路
根据乘法公式:
$$
P(A \cap B_i) = P(B_i) \cdot P(A \mid B_i)
$$
又因为 $A$ 可以表示为:
$$
A = (A \cap B_1) \cup (A \cap B_2) \cup \dots \cup (A \cap B_n)
$$
且这些交集事件互不相交,于是有:
$$
P(A) = \sum_{i=1}^{n} P(A \cap B_i) = \sum_{i=1}^{n} P(B_i) \cdot P(A \mid B_i)
$$
4.5 经典例题
一个工厂有三台机器 $M_1$, $M_2$, $M_3$ 生产产品,它们分别生产 30%、50%、20% 的产品,次品率分别是 2%、3%、4%。问:随机取出一个产品,它是次品的概率是多少?
设:
- $B_1$:来自 $M_1$,$P(B_1) = 0.3$,$P(\text{次品} \mid B_1) = 0.02$
- $B_2$:来自 $M_2$,$P(B_2) = 0.5$,$P(\text{次品} \mid B_2) = 0.03$
- $B_3$:来自 $M_3$,$P(B_3) = 0.2$,$P(\text{次品} \mid B_3) = 0.04$
代入全概率公式:
$$
\begin{aligned}
P(\text{次品}) &= P(B_1) \cdot P(\text{次品} \mid B_1) + P(B_2) \cdot P(\text{次品} \mid B_2) + P(B_3) \cdot P(\text{次品} \mid B_3) \\
&= 0.3 \cdot 0.02 + 0.5 \cdot 0.03 + 0.2 \cdot 0.04 \\
&= 0.006 + 0.015 + 0.008 = 0.029
\end{aligned}
$$
所以产品是次品的概率为2.9%。
5. 独立性与条件独立性(Independence & Conditional Independence)
5.1 两个事件的独立性(Independence of Two Events)
👉 定义:
若两个事件 $A$ 和 $B$ 满足:
$$
P(A \cap B) = P(A) \cdot P(B)
$$
则称 $A$ 与 $B$ 相互独立(independent),记作:
$$
A \perp B
$$
如果 $A$ 与 $B$ 独立,一个事件是否发生不会影响另一个事件的发生概率。
即:
$$
P(A \mid B) = P(A), \quad P(B \mid A) = P(B)
$$
5.2 多个事件的独立性(Mutual Independence)
三个及以上事件的独立性必须满足更强的条件:
事件 $A_1, A_2, \dots, A_n$ 相互独立 当且仅当,对任意子集 ${i_1, i_2, \dots, i_k}$ 都有:
$$
P(A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_k}) = P(A_{i_1}) \cdot P(A_{i_2}) \cdots P(A_{i_k})
$$
例如,$A_1, A_2, A_3$ 三个事件独立需要满足:
- $P(A_1 \cap A_2) = P(A_1)P(A_2)$
- $P(A_1 \cap A_3) = P(A_1)P(A_3)$
- $P(A_2 \cap A_3) = P(A_2)P(A_3)$
- $P(A_1 \cap A_2 \cap A_3) = P(A_1)P(A_2)P(A_3)$
✅ 所以 两两独立不代表完全独立(mutual independence)!
5.3 条件独立性(Conditional Independence)
👉 定义:
给定事件 $C$,如果事件 $A$ 和 $B$ 满足:
$$
P(A \cap B \mid C) = P(A \mid C) \cdot P(B \mid C)
$$
则称 $A$ 与 $B$ 在 $C$ 条件下独立,记作:
$$
A \perp B \mid C
$$
虽然 $A$ 与 $B$ 在总体上可能有关,但在知道 $C$ 发生的前提下,它们变得无关。
举个例子:
- $A$:某人感冒
- $B$:某人发烧
- $C$:该人感染了病毒
则 $A$ 和 $B$ 在总体上可能有关联,但在给定 $C$(病毒感染)的前提下,$A$ 和 $B$ 的概率分布是独立的。
5.4 常见误区说明:
概念 | 要点 | 易错点 |
---|---|---|
独立性 | $P(A \cap B) = P(A)P(B)$ | 与“互斥”不同,互斥事件不能同时发生,但可能不独立 |
条件独立性 | $P(A \cap B \mid C) = P(A \mid C)P(B \mid C)$ | 条件独立 ≠ 无条件独立 |
两两独立 | 任意两个事件独立 | 不等价于相互独立(mutual independence) |
5.5 示例题(简要)
已知 $P(A) = 0.5,\ P(B) = 0.6,\ P(A \cap B) = 0.3$,判断 $A$ 与 $B$ 是否独立?
计算:
$$
P(A) \cdot P(B) = 0.5 \cdot 0.6 = 0.3
$$
因为 $P(A \cap B) = 0.3$,所以:
✅ $A$ 与 $B$ 是独立的
6. 随机变量(Random Variable)
6.1 随机变量的定义
在概率论中,随机变量是对试验结果进行数值表示的函数。
👉 数学定义:
设样本空间为 $\Omega$,一个随机变量 $X$ 是一个函数:
$$
X: \Omega \rightarrow \mathbb{R}
$$
它将样本空间中的每一个元素 $\omega \in \Omega$ 映射为实数 $X(\omega)$。
✅ 通俗理解:随机变量是把“事件结果”转化为“数值”的工具。
6.2 随机变量的分类
1. 离散型随机变量(Discrete Random Variable)
如果随机变量的取值是有限个或可数无限个,称为离散型。
例子:
- 投掷骰子:$X = \text{点数} \in {1,2,3,4,5,6}$
- 抛硬币若干次直到第一次正面:$X \in {1,2,3,\dots}$
2. 连续型随机变量(Continuous Random Variable)
如果随机变量可以在一个实数区间内连续取值,则称为连续型。
例子:
- 一根木棍长度 $X \in [0, 100]$
- 电压 $X \in \mathbb{R}$
6.3 随机变量的事件定义
随机变量定义完后,我们可以通过它来描述事件,例如:
- “事件 $X = 2$” 实际表示的是 $X^{-1}({2}) = {\omega \in \Omega \mid X(\omega) = 2}$
- “事件 $X < 5$” 表示的是 $X^{-1}((-\infty, 5))$
这使我们能在数轴上处理事件,而不是抽象的样本空间。
6.4 分布函数(Distribution Function)
设 $X$ 是一个随机变量,其分布函数(CDF)定义为:
$$
F_X(x) = P(X \leq x)
$$
这是描述随机变量最重要的工具之一。
✅ 分布函数的性质:
单调非减:
$$
x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)
$$左连续:
$$
\lim_{t \to x^-} F_X(t) = F_X(x)
$$极限性质:
$$
\lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1
$$
6.5 常见随机变量举例
名称 | 类型 | 常用记号 | 定义域 | 示例 |
---|---|---|---|---|
伯努利分布 | 离散型 | $X \sim \text{Bern}(p)$ | ${0,1}$ | 抛一次硬币 |
二项分布 | 离散型 | $X \sim B(n, p)$ | ${0,1,\dots,n}$ | 抛硬币 $n$ 次 |
几何分布 | 离散型 | $X \sim \text{Geom}(p)$ | ${1,2,3,\dots}$ | 第一次成功的试验次数 |
均匀分布 | 连续型 | $X \sim U(a, b)$ | $[a,b]$ | 等概率抽取 |
正态分布 | 连续型 | $X \sim N(\mu, \sigma^2)$ | $\mathbb{R}$ | 自然现象、误差 |
指数分布 | 连续型 | $X \sim \text{Exp}(\lambda)$ | $[0, \infty)$ | 等待时间 |
6.6 小结
- 随机变量是从事件到数值的桥梁。
- 离散型和连续型是两大类。
- 分布函数 $F_X(x) = P(X \leq x)$ 是描述随机变量行为的核心工具。
7. 累积分布函数(CDF)
设 $X$ 是一个随机变量,其累积分布函数(CDF)定义为:
$$
F_X(x) = P(X \leq x)
$$
即,随机变量 $X$ 取值小于等于 $x$ 的概率。
7.1 CDF 的基本性质:
对于任意随机变量 $X$,其 CDF $F_X(x)$ 满足以下性质:
非递减性(Monotonicity):
$$
x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)
$$右连续性(Right-continuity):
$$
\lim_{\varepsilon \to 0^+} F_X(x + \varepsilon) = F_X(x)
$$取值范围(Range):
$$
\lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1
$$概率的区间表示:
对任意 $a < b$,$$
P(a < X \leq b) = F_X(b) - F_X(a)
$$
7.2 离散型随机变量的 CDF:
若 $X$ 为离散型随机变量,具有概率质量函数(PMF) $p(x_i) = P(X = x_i)$,则:
$$
F_X(x) = \sum_{x_i \leq x} p(x_i)
$$
例子:设 $X$ 的取值为 $1, 2, 3$,且:
- $P(X=1)=0.2$,
- $P(X=2)=0.5$,
- $P(X=3)=0.3$。
则 $F_X(x)$ 为:
- $F_X(1) = 0.2$
- $F_X(2) = 0.7$
- $F_X(3) = 1.0$
7.3 连续型随机变量的 CDF:
若 $X$ 为连续型随机变量,其概率密度函数(PDF)为 $f(x)$,则:
$$
F_X(x) = \int_{-\infty}^{x} f(t) , dt
$$
并且:
$$
f(x) = \frac{d}{dx}F_X(x)
$$
7.4 常见分布的 CDF 示例:
**均匀分布 $U(a, b)$**:
$$
F_X(x) = \begin{cases}
0 & x < a \\
\frac{x - a}{b - a} & a \leq x \leq b \\
1 & x > b
\end{cases}
$$**标准正态分布 $\mathcal{N}(0, 1)$**:
$$
F_X(x) = \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-t^2/2} , dt
$$
(注意:$\Phi(x)$ 无解析表达式,通常查表或用数值方法)
📎 注意事项:
- CDF 是每个随机变量都存在的,即使它既不是纯粹离散也不是纯粹连续(如混合型)。
- CDF 是研究概率分布的基本工具,能完全刻画一个随机变量的分布。
8. 期望和方差
8.1. 期望(Expectation)
离散型随机变量 $X$
如果 $X$ 的概率质量函数为 $P(X = x_i) = p_i$,则其期望定义为:
$$
\mathbb{E}[X] = \sum_i x_i \cdot p_i
$$
连续型随机变量 $X$
如果 $X$ 的概率密度函数为 $f(x)$,则期望为:
$$
\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f(x) , dx
$$
期望的性质
线性性:对任意常数 $a, b$ 和随机变量 $X, Y$ 有:
$$
\mathbb{E}[aX + bY] = a \mathbb{E}[X] + b \mathbb{E}[Y]
$$若 $c$ 为常数,则:
$$
\mathbb{E}[c] = c
$$
8.2. 方差(Variance)
方差衡量随机变量与其期望的偏离程度。
$$
\mathrm{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2]
$$
也可以表示为:
$$
\mathrm{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2
$$
方差的性质
常数的方差为 0:
$$
\mathrm{Var}(c) = 0
$$常数乘积:
$$
\mathrm{Var}(aX + b) = a^2 \cdot \mathrm{Var}(X)
$$
8.3. 协方差与相关系数
协方差定义:
$$
\mathrm{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]
$$相关系数(标准化的协方差):
$$
\rho_{X,Y} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \cdot \sqrt{\mathrm{Var}(Y)}}
$$
9. Markov 不等式(Markov’s Inequality)
$$
\mathbb{P}(X \ge a) \le \frac{\mathbb{E}[X]}{a}
$$
10. Chebyshev 不等式(Chebyshev’s Inequality)
设随机变量 $X$ 的期望为 $\mu = \mathbb{E}[X]$,方差为 $\sigma^2 = \mathrm{Var}(X)$,那么对于任意 $\varepsilon > 0$,有:
$$
\mathbb{P}(|X - \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2}
$$
令 $Y = (X - \mu)^2$,因为 $Y \ge 0$,可以对其使用 Markov 不等式:
$$
\mathbb{P}(Y \ge \varepsilon^2) \le \frac{\mathbb{E}[Y]}{\varepsilon^2}
$$
又因为:
$$
Y = (X - \mu)^2,\quad \mathbb{E}[Y] = \mathrm{Var}(X) = \sigma^2
$$
所以,
$$
\mathbb{P}((X - \mu)^2 \ge \varepsilon^2) \le \frac{\sigma^2}{\varepsilon^2}
$$
注意到事件 ${(X - \mu)^2 \ge \varepsilon^2}$ 与事件 ${|X - \mu| \ge \varepsilon}$ 是等价的,因此:
$$
\mathbb{P}(|X - \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2}
$$
证毕。
11. 常见离散型分布
11.1. Bernoulli 分布(伯努利分布)
定义:只有两个可能结果(成功或失败),成功的概率为 $p$,失败的概率为 $1 - p$。
概率质量函数(PMF):
$$
\mathbb{P}(X = x) =
\begin{cases}
p, & x = 1 \\
1 - p, & x = 0
\end{cases}
$$期望:$\mathbb{E}[X] = p$
方差:$\mathrm{Var}(X) = p(1 - p)$
11.2. Binomial 分布(二项分布)
定义:进行 $n$ 次独立伯努利试验,每次成功概率为 $p$,$X$ 表示成功次数。
PMF:
$$
\mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k},\quad k = 0, 1, \dots, n
$$期望:$\mathbb{E}[X] = np$
方差:$\mathrm{Var}(X) = np(1 - p)$
11.3. Geometric 分布(几何分布)
定义:第一次成功所需的试验次数(包括成功的那次),每次独立试验成功概率为 $p$。
PMF:
$$
\mathbb{P}(X = k) = (1 - p)^{k - 1} p,\quad k = 1, 2, 3, \dots
$$期望:$\mathbb{E}[X] = \frac{1}{p}$
方差:$\mathrm{Var}(X) = \frac{1 - p}{p^2}$
11.4. Poisson 分布(泊松分布)
定义:单位时间或单位面积内发生某事件的次数。常用于稀有事件建模。
PMF:
$$
\mathbb{P}(X = k) = \frac{\lambda^k e^{-\lambda}}{k!},\quad k = 0, 1, 2, \dots
$$期望:$\mathbb{E}[X] = \lambda$
方差:$\mathrm{Var}(X) = \lambda$
11.5. Hypergeometric 分布(超几何分布)
定义:从 $N$ 个元素中不放回地抽取 $n$ 个,其中有 $K$ 个是“成功”,$X$ 表示抽到的成功个数。
PMF:
$$
\mathbb{P}(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}},\quad \max(0, n - N + K) \le k \le \min(n, K)
$$期望:$\mathbb{E}[X] = n \cdot \frac{K}{N}$
方差:
$$
\mathrm{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1}
$$
12. 常见连续型分布
12.1 均匀分布(Uniform Distribution)
定义域:$X \sim U(a, b)$,其中 $a < b$
概率密度函数(PDF):
$$
f(x) = \begin{cases}
\frac{1}{b - a}, & a \leq x \leq b \\
0, & \text{otherwise}
\end{cases}
$$期望与方差:
$$
\mathbb{E}[X] = \frac{a + b}{2}, \quad \mathrm{Var}(X) = \frac{(b - a)^2}{12}
$$
12.2 指数分布(Exponential Distribution)
定义:$X \sim \mathrm{Exp}(\lambda)$,其中 $\lambda > 0$
概率密度函数:
$$
f(x) = \begin{cases}
\lambda e^{-\lambda x}, & x \geq 0 \\
0, & x < 0
\end{cases}
$$期望与方差:
$$
\mathbb{E}[X] = \frac{1}{\lambda}, \quad \mathrm{Var}(X) = \frac{1}{\lambda^2}
$$记忆性:$\mathbb{P}(X > s + t \mid X > s) = \mathbb{P}(X > t)$
12.3 正态分布(Normal Distribution)
定义:$X \sim \mathcal{N}(\mu, \sigma^2)$
概率密度函数:
$$
f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
$$期望与方差:
$$
\mathbb{E}[X] = \mu, \quad \mathrm{Var}(X) = \sigma^2
$$标准正态分布:$Z \sim \mathcal{N}(0, 1)$
12.4 伽马分布(Gamma Distribution)
定义:$X \sim \mathrm{Gamma}(\alpha, \lambda)$,其中 $\alpha > 0$ 是形状参数,$\lambda > 0$ 是率参数
概率密度函数:
$$
f(x) = \frac{\lambda^\alpha x^{\alpha - 1} e^{-\lambda x}}{\Gamma(\alpha)}, \quad x > 0
$$期望与方差:
$$
\mathbb{E}[X] = \frac{\alpha}{\lambda}, \quad \mathrm{Var}(X) = \frac{\alpha}{\lambda^2}
$$特别情况:
- $\alpha = 1$ 时为指数分布
- $\alpha = n$(正整数)时为 Erlang 分布
12.5 卡方分布(Chi-Square Distribution)
定义:$\chi^2_k$ 是 $k$ 个独立标准正态变量平方和的分布
概率密度函数:
$$
f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad x > 0
$$期望与方差:
$$
\mathbb{E}[X] = k, \quad \mathrm{Var}(X) = 2k
$$
12.6 t 分布(Student’s t Distribution)
定义:$T = \frac{Z}{\sqrt{V/k}}$,其中 $Z \sim \mathcal{N}(0,1)$,$V \sim \chi^2_k$ 且独立
期望与方差:
$$
\mathbb{E}[T] = 0 \quad (k > 1), \quad \mathrm{Var}(T) = \frac{k}{k - 2} \quad (k > 2)
$$
12.7 F 分布(Fisher Distribution)
定义:$F = \frac{(U_1/d_1)}{(U_2/d_2)}$,其中 $U_1 \sim \chi^2_{d_1}$,$U_2 \sim \chi^2_{d_2}$
期望($d_2 > 2$):
$$
\mathbb{E}[F] = \frac{d_2}{d_2 - 2}
$$
13. 常见离散型概率分布(含重要性质)
13.1. 伯努利分布(Bernoulli Distribution)
定义:表示一次只有“成功”(1)或“失败”(0)两种结果的随机试验。
参数:$p \in [0, 1]$(成功的概率)
概率质量函数(PMF):
$$
P(X = x) = p^x (1 - p)^{1 - x}, \quad x \in {0, 1}
$$
期望:
$$
\mathbb{E}[X] = p
$$
方差:
$$
\mathrm{Var}(X) = p(1 - p)
$$
性质:
- 伯努利分布是二项分布 $B(n, p)$ 在 $n=1$ 情况下的特例。
13.2. 二项分布(Binomial Distribution)
定义:$n$ 次独立的伯努利试验中成功的次数。
参数:$n \in \mathbb{N}$,$p \in [0, 1]$
概率质量函数:
$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \dots, n
$$
期望:
$$
\mathbb{E}[X] = np
$$
方差:
$$
\mathrm{Var}(X) = np(1 - p)
$$
性质:
- 当 $n \to \infty$, $p \to 0$ 且 $np = \lambda$ 保持常数时,二项分布趋近于泊松分布 $P(\lambda)$。
13.3. 几何分布(Geometric Distribution)
定义:第一次成功出现前失败的次数。
参数:$p \in (0, 1]$
概率质量函数(失败次数版):
$$
P(X = k) = (1 - p)^k p, \quad k = 0, 1, 2, \dots
$$
期望:
$$
\mathbb{E}[X] = \frac{1 - p}{p}
$$
方差:
$$
\mathrm{Var}(X) = \frac{1 - p}{p^2}
$$
性质:
几何分布具有 无记忆性(memoryless):
$$
P(X > m + n \mid X > m) = P(X > n)
$$
13.4. 负二项分布(Negative Binomial Distribution)
定义:第 $r$ 次成功出现前的失败次数。
参数:$r \in \mathbb{N}$,$p \in (0, 1)$
概率质量函数:
$$
P(X = k) = \binom{k + r - 1}{k} (1 - p)^k p^r, \quad k = 0, 1, 2, \dots
$$
期望:
$$
\mathbb{E}[X] = \frac{r(1 - p)}{p}
$$
方差:
$$
\mathrm{Var}(X) = \frac{r(1 - p)}{p^2}
$$
性质:
- 负二项分布是几何分布的推广,几何分布是 $r = 1$ 的特例。
13.5. 超几何分布(Hypergeometric Distribution)
定义:从 $N$ 个物品中抽取 $n$ 个,其中 $K$ 个为成功,$X$ 表示抽到成功的个数。
参数:$N$(总体大小),$K$(成功元素个数),$n$(抽样数)
概率质量函数:
$$
P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad \max(0, n - N + K) \leq k \leq \min(n, K)
$$
期望:
$$
\mathbb{E}[X] = n \cdot \frac{K}{N}
$$
方差:
$$
\mathrm{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1}
$$
性质:
- 超几何分布是 无放回抽样 下的模型;当 $N \to \infty$ 且 $K/N \to p$ 时,趋近于二项分布 $B(n, p)$。
13.6. 泊松分布(Poisson Distribution)
定义:单位时间内某事件发生的次数,适用于稀疏事件。
参数:$\lambda > 0$(单位时间内平均发生次数)
概率质量函数:
$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots
$$
期望:
$$
\mathbb{E}[X] = \lambda
$$
方差:
$$
\mathrm{Var}(X) = \lambda
$$
性质:
泊松分布的多个独立随机变量之和仍服从泊松分布:
$$
X_1 \sim P(\lambda_1), \quad X_2 \sim P(\lambda_2) \Rightarrow X_1 + X_2 \sim P(\lambda_1 + \lambda_2)
$$
13.7. 离散均匀分布(Discrete Uniform Distribution)
定义:在 $a, a+1, \dots, b$ 之间均匀分布的整数。
参数:$a, b \in \mathbb{Z}$ 且 $a \leq b$
概率质量函数:
$$
P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a+1, \dots, b
$$
期望:
$$
\mathbb{E}[X] = \frac{a + b}{2}
$$
方差:
$$
\mathrm{Var}(X) = \frac{(b - a + 1)^2 - 1}{12}
$$
性质:
- 离散均匀分布具有最大熵(信息量)属性:在已知最小值与最大值的条件下,它是熵最大的分布。
14. 常见连续型概率分布
连续型分布的随机变量可以取无限多个值,它的概率是通过概率密度函数(PDF)定义的。
常见的连续型分布包括:
14.1. 均匀分布(Uniform Distribution)
定义域:$x \in [a, b]$
概率密度函数:
$$
f(x) = \begin{cases}
\dfrac{1}{b - a}, & a \le x \le b \\
0, & \text{otherwise}
\end{cases}
$$期望:
$$
\mathbb{E}[X] = \dfrac{a + b}{2}
$$方差:
$$
\mathrm{Var}(X) = \dfrac{(b - a)^2}{12}
$$性质补充:所有区间等可能,呈现“完全不偏”状态。
14.2. 正态分布(Normal Distribution)
定义域:$x \in (-\infty, +\infty)$
概率密度函数:
$$
f(x) = \dfrac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\dfrac{(x - \mu)^2}{2\sigma^2} \right)
$$期望:
$$
\mathbb{E}[X] = \mu
$$方差:
$$
\mathrm{Var}(X) = \sigma^2
$$性质补充:具有对称性;中心极限定理的核心;标准正态分布是 $\mu = 0,\ \sigma^2 = 1$。
🧠 正态分布的独立可加性性质(Additivity)
✅ 性质描述:
如果 $X_1, X_2, \dots, X_n$ 是 相互独立 且都服从正态分布的随机变量,即:
$$
X_i \sim \mathcal{N}(\mu_i, \sigma_i^2),\quad i = 1, 2, \dots, n
$$
那么它们的加和:
$$
S_n = X_1 + X_2 + \dots + X_n
$$
也服从正态分布:
$$
S_n \sim \mathcal{N}(\mu_1 + \mu_2 + \dots + \mu_n,\ \sigma_1^2 + \sigma_2^2 + \dots + \sigma_n^2)
$$
换句话说:
✅ 正态分布的独立线性组合仍然服从正态分布!
📌 举个例子:
假设:
- $X_1 \sim \mathcal{N}(3, 4)$
- $X_2 \sim \mathcal{N}(1, 9)$
- 且 $X_1$ 和 $X_2$ 相互独立
那么:
$$
X_1 + X_2 \sim \mathcal{N}(3 + 1,\ 4 + 9) = \mathcal{N}(4,\ 13)
$$
📌 更一般地说:
对任意实数常数 $a, b$,如果 $X \sim \mathcal{N}(\mu_X, \sigma_X^2)$,$Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ 且 $X, Y$ 独立,
那么线性组合 $Z = aX + bY$ 也服从正态分布:
$$
Z \sim \mathcal{N}(a\mu_X + b\mu_Y,\ a^2\sigma_X^2 + b^2\sigma_Y^2)
$$
❗ 注意事项:
- 独立性是必要条件。如果 $X_i$ 之间有相关性,加和不一定服从正态分布。
- 即使是不同参数的正态分布,加和仍然是正态的,只要它们是独立的。
📖 为什么重要?
- 正态分布封闭性:这是正态分布的“封闭性”之一(加法下封闭),其他常见分布(如指数、卡方)都不具有这个性质。
- 中心极限定理基础:虽然中心极限定理适用于很多分布,但在正态分布的情形下,加和就精确地是正态分布,而不是近似。
- 在统计中的广泛应用:例如,样本均值、误差项建模、线性回归等,都是利用这个性质。
14.3. 指数分布(Exponential Distribution)
定义域:$x \in [0, +\infty)$
概率密度函数:
$$
f(x) = \lambda e^{-\lambda x},\quad \lambda > 0
$$期望:
$$
\mathbb{E}[X] = \dfrac{1}{\lambda}
$$方差:
$$
\mathrm{Var}(X) = \dfrac{1}{\lambda^2}
$$性质补充:具有无记忆性:$P(X > s + t \mid X > s) = P(X > t)$
14.4. 伽马分布(Gamma Distribution)
定义域:$x \in [0, +\infty)$
概率密度函数(形状参数 $k$,率参数 $\lambda$):
$$
f(x) = \dfrac{\lambda^k}{\Gamma(k)} x^{k-1} e^{-\lambda x},\quad x > 0
$$期望:
$$
\mathbb{E}[X] = \dfrac{k}{\lambda}
$$方差:
$$
\mathrm{Var}(X) = \dfrac{k}{\lambda^2}
$$性质补充:$k = 1$ 时退化为指数分布。
14.5. 卡方分布(Chi-Square Distribution)
定义域:$x \in [0, +\infty)$
参数:自由度 $k$
概率密度函数:
$$
f(x) = \dfrac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}
$$期望:
$$
\mathbb{E}[X] = k
$$方差:
$$
\mathrm{Var}(X) = 2k
$$性质补充:是 $k$ 个标准正态分布平方和;用于假设检验中。
14.6. 贝塔分布(Beta Distribution)
定义域:$x \in [0, 1]$
参数:$\alpha, \beta > 0$
概率密度函数:
$$
f(x) = \dfrac{x^{\alpha - 1}(1 - x)^{\beta - 1}}{B(\alpha, \beta)}
$$其中 $B(\alpha, \beta)$ 是贝塔函数:
$$
B(\alpha, \beta) = \dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}
$$期望:
$$
\mathbb{E}[X] = \dfrac{\alpha}{\alpha + \beta}
$$方差:
$$
\mathrm{Var}(X) = \dfrac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}
$$性质补充:广泛用于贝叶斯推断中表示概率分布的先验。
14.7. 柯西分布(Cauchy Distribution)
定义域:$x \in (-\infty, +\infty)$
概率密度函数:
$$
f(x) = \dfrac{1}{\pi} \cdot \dfrac{1}{1 + x^2}
$$期望/方差:均不存在
性质补充:尾部非常厚,不满足大数定律。
14.8. 对数正态分布(Log-Normal Distribution)
定义域:$x \in (0, +\infty)$
定义:若 $Y = \ln X \sim \mathcal{N}(\mu, \sigma^2)$,则 $X$ 服从对数正态分布。
概率密度函数:
$$
f(x) = \dfrac{1}{x\sigma\sqrt{2\pi}} \exp\left( -\dfrac{(\ln x - \mu)^2}{2\sigma^2} \right)
$$期望:
$$
\mathbb{E}[X] = e^{\mu + \frac{\sigma^2}{2}}
$$方差:
$$
\mathrm{Var}(X) = \left(e^{\sigma^2} - 1\right) e^{2\mu + \sigma^2}
$$性质补充:常见于收入分布、股票价格建模等。
15. 多元随机变量及其分布
多元随机变量是由多个单一随机变量组成的向量,用于描述多个变量之间的联合行为。
15.1. 多元随机变量定义
设有 $n$ 个随机变量 $X_1, X_2, \dots, X_n$,我们定义一个多元随机变量(Random Vector):
$$
\mathbf{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix}
$$
若每个 $X_i$ 都是连续型随机变量,则称 $\mathbf{X}$ 是多元连续型随机变量。
15.2. 联合分布函数(Joint Distribution Function)
✅ 定义:
设 $(X, Y)$ 是二维随机变量,其联合分布函数定义为:
$$
F(x, y) = P(X \le x,\ Y \le y)
$$
对于更高维的 $(X_1, X_2, \dots, X_n)$:
$$
F(x_1, x_2, \dots, x_n) = P(X_1 \le x_1,\ X_2 \le x_2,\ \dots,\ X_n \le x_n)
$$
15.2.1. 联合分布函数的基本性质(二维情况)
设 $F(x, y) = P(X \le x,\ Y \le y)$,则它满足以下性质:
单调性(Monotonicity):
$$
x_1 \le x_2,\ y_1 \le y_2 \Rightarrow F(x_1, y_1) \le F(x_2, y_2)
$$有界性(Boundedness):
$$
0 \le F(x, y) \le 1
$$右连续性(Right Continuity):
$$
\lim_{h \to 0^+,\ k \to 0^+} F(x + h,\ y + k) = F(x, y)
$$极限性质(Limits at Infinity):
- $F(+\infty,\ +\infty) = 1$
- $F(-\infty,\ y) = F(x,\ -\infty) = 0$
- $F(+\infty,\ y) = P(Y \le y)$,即为 $Y$ 的边缘分布函数
概率计算(由 CDF 得出某区域概率):
$$
P(a < X \le b,\ c < Y \le d) = F(b, d) - F(a, d) - F(b, c) + F(a, c)
$$
15.2.2. 联合分布函数的非负性(在密度函数意义下)
若 $X, Y$ 连续,存在联合密度函数 $f(x, y)$,则:
$f(x, y) \ge 0$
联合分布函数由密度函数积分给出:
$$
F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(s, t), dt, ds
$$
15.3 联合分布列(Joint Probability Mass Function, Joint PMF)
当 $X, Y$ 为离散随机变量时,我们用联合分布列来描述它们的联合行为。
✅ 定义:
联合概率质量函数(Joint PMF)定义为:
$$
p(x_i, y_j) = P(X = x_i,\ Y = y_j)
$$
所有可能的取值 $(x_i, y_j)$ 组成一个二维表格或函数,满足:
非负性:
$$
p(x_i, y_j) \ge 0
$$归一性:
$$
\sum_i \sum_j p(x_i, y_j) = 1
$$
📌 相关概念:
边缘分布:
$$
p_X(x_i) = \sum_j p(x_i, y_j),\quad p_Y(y_j) = \sum_i p(x_i, y_j)
$$条件分布:
$$
P(X = x_i \mid Y = y_j) = \frac{p(x_i, y_j)}{p_Y(y_j)},\quad \text{若 } p_Y(y_j) > 0
$$独立性:
若对所有 $(x_i, y_j)$ 都满足:
$$
p(x_i, y_j) = p_X(x_i) \cdot p_Y(y_j)
$$则 $X$ 与 $Y$ 相互独立。
✅ 示例:联合分布列表格(X, Y 为离散)
$Y \backslash X$ | $x_1$ | $x_2$ | $x_3$ |
---|---|---|---|
$y_1$ | 0.1 | 0.2 | 0.1 |
$y_2$ | 0.1 | 0.3 | 0.2 |
检查归一性:$0.1 + 0.2 + 0.1 + 0.1 + 0.3 + 0.2 = 1$
边缘分布:
- $p_X(x_1) = 0.1 + 0.1 = 0.2$
- $p_Y(y_1) = 0.1 + 0.2 + 0.1 = 0.4$
15.4. 边缘分布(Marginal Distribution)
设 $(X, Y)$ 是二维连续型随机变量,联合密度为 $f_{X,Y}(x, y)$,则:
$X$ 的边缘密度:
$$
f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y), dy
$$$Y$ 的边缘密度:
$$
f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y), dx
$$
15.5. 条件分布(Conditional Distribution)
条件密度函数:
二维情形下,$X$ 在给定 $Y = y$ 条件下的密度函数为:
$$
f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}
$$
前提是 $f_Y(y) > 0$。
15.6. 独立性
如果:
$$
f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)
$$
则 $X$ 和 $Y$ 相互独立。
更一般地,$X_1, \dots, X_n$ 彼此独立,当且仅当:
$$
f_{X_1, \dots, X_n}(x_1, \dots, x_n) = \prod_{i=1}^n f_{X_i}(x_i)
$$
15.7. 协方差与相关系数(Covariance and Correlation)
协方差:
对 $(X, Y)$:
$$
\mathrm{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = \mathbb{E}[XY] - \mathbb{E}[X] \mathbb{E}[Y]
$$相关系数:
$$
\rho_{X,Y} = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}
$$$\rho$ 范围为 $[-1, 1]$,$\rho = 0$ 不代表独立。
15.8. 协方差矩阵(Covariance Matrix)
若 $\mathbf{X} = [X_1, X_2, \dots, X_n]^\top$,定义其协方差矩阵为:
$$
\Sigma = \mathrm{Cov}(\mathbf{X}) = \mathbb{E}[(\mathbf{X} - \mu)(\mathbf{X} - \mu)^\top]
$$
其元素为:
$$
\Sigma_{ij} = \mathrm{Cov}(X_i, X_j)
$$
15.9. 多元正态分布(Multivariate Normal Distribution)
定义:
随机向量 $\mathbf{X} \in \mathbb{R}^n$ 服从多元正态分布,记作:
$$
\mathbf{X} \sim \mathcal{N}(\mu, \Sigma)
$$
其中:
- $\mu$ 是均值向量
- $\Sigma$ 是协方差矩阵(对称正定)
密度函数:
$$
f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left( -\frac{1}{2}(\mathbf{x} - \mu)^\top \Sigma^{-1} (\mathbf{x} - \mu) \right)
$$
性质:
- 多元正态分布的任意线性组合仍是正态分布
- 边缘分布仍为正态
- 条件分布仍为正态
16. 联合密度函数(Joint Probability Density Function)
16.1. 定义
设 $(X, Y)$ 是二维连续型随机变量,如果存在函数 $f(x, y)$ 满足:
$$
P((X, Y) \in A) = \iint_A f(x, y), dx, dy
$$
则称 $f(x, y)$ 是 $(X, Y)$ 的 联合概率密度函数(joint PDF)。
16.2. 条件(必须满足)
- $f(x, y) \ge 0$
- $\iint_{\mathbb{R}^2} f(x, y), dx, dy = 1$
16.3. 与联合分布函数的关系
若 $F(x, y)$ 是 $(X, Y)$ 的联合分布函数,则:
$$
f(x, y) = \frac{\partial^2 F(x, y)}{\partial x , \partial y}
$$
反过来,联合分布函数也可以通过密度函数积分得出:
$$
F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(s, t), dt, ds
$$
16.4. 联合密度函数的重要性质与推导
性质 1:非负性(Non-negativity)
$$
f(x, y) \ge 0,\quad \forall (x, y)
$$
解释:这是概率的基本性质,密度函数不能为负值。
性质 2:归一性(Normalization)
$$
\iint_{\mathbb{R}^2} f(x, y), dx, dy = 1
$$
推导说明:
这是联合随机变量在整个二维平面上的总概率,必须为 1。
性质 3:边缘密度(Marginal Density)
通过积分“消去”一个变量来获得边缘密度函数:
$X$ 的边缘密度函数:
$$
f_X(x) = \int_{-\infty}^{+\infty} f(x, y), dy
$$$Y$ 的边缘密度函数:
$$
f_Y(y) = \int_{-\infty}^{+\infty} f(x, y), dx
$$
推导说明:
$$
f_X(x) = \frac{d}{dx} P(X \le x) = \frac{d}{dx} \left( \int_{-\infty}^x \int_{-\infty}^{\infty} f(s, t), dt, ds \right)
= \int_{-\infty}^{\infty} f(x, y), dy
$$
性质 4:概率计算公式
对于任意矩形区域:
$$
P(a < X \le b,\ c < Y \le d) = \int_a^b \int_c^d f(x, y), dy, dx
$$
性质 5:独立性的充要条件
随机变量 $X$ 和 $Y$ 独立 当且仅当:
$$
f(x, y) = f_X(x) \cdot f_Y(y)
$$
性质 6:条件密度函数(Conditional Density)
条件密度 $X \mid Y = y$:
$$
f_{X \mid Y}(x \mid y) = \frac{f(x, y)}{f_Y(y)},\quad f_Y(y) > 0
$$条件密度 $Y \mid X = x$:
$$
f_{Y \mid X}(y \mid x) = \frac{f(x, y)}{f_X(x)},\quad f_X(x) > 0
$$
16.5. 推导实例:边缘密度和条件密度
已知联合密度函数:
$$
f(x, y) = \begin{cases}
6xy, & 0 < x < 1,\ 0 < y < 1,\ x + y < 1 \\
0, & \text{otherwise}
\end{cases}
$$
步骤 1:验证是否为联合密度函数
我们要验证归一性:
$$
\iint_{D} f(x, y), dx, dy = \int_0^1 \int_0^{1 - x} 6xy, dy, dx
$$
先对 $y$ 积分:
$$
\int_0^{1 - x} 6xy, dy = 6x \cdot \int_0^{1 - x} y, dy = 6x \cdot \left[ \frac{y^2}{2} \right]_0^{1 - x}
= 6x \cdot \frac{(1 - x)^2}{2}
$$
再对 $x$ 积分:
$$
\int_0^1 3x(1 - x)^2, dx = 3 \int_0^1 x(1 - 2x + x^2), dx
= 3 \int_0^1 (x - 2x^2 + x^3), dx
= 3 \left[ \frac{x^2}{2} - \frac{2x^3}{3} + \frac{x^4}{4} \right]_0^1
$$
计算:
$$
3 \left( \frac{1}{2} - \frac{2}{3} + \frac{1}{4} \right) = 3 \cdot \left( \frac{6 - 8 + 3}{12} \right) = 3 \cdot \frac{1}{12} = \frac{1}{4}
$$
❌ 所以 不满足归一性,我们应将 $f(x, y)$ 调整为:
$$
f(x, y) = \frac{6xy}{1/4} = 24xy
$$
使得积分为 1。
17. 常见多维分布
17.1 基本概念
假设 $X = (X_1, X_2, \dots, X_n)$ 是一个n维随机向量,那么我们就可以研究其联合分布函数、联合概率密度函数、边缘分布、条件分布等。
联合分布函数(Joint CDF):
$$
F(x_1, \dots, x_n) = P(X_1 \le x_1, \dots, X_n \le x_n)
$$满足单调性、有界性(在 $[0,1]$ 之间)、右连续性和非负性。
联合密度函数(Joint PDF)如果存在,则:
$$
f(x_1, \dots, x_n) = \frac{\partial^n F(x_1, \dots, x_n)}{\partial x_1 \cdots \partial x_n}
$$边缘密度(Marginal PDF)是通过积分其他变量得到的:
$$
f_{X_1}(x_1) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1, x_2, \dots, x_n) dx_2 \cdots dx_n
$$条件密度:
$$
f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)} \quad \text{(如果 $f_Y(y) > 0$)}
$$
17.2 常见多维分布类型
多元离散分布(Multivariate Discrete Distribution)
- 例子:二维伯努利分布、多项分布(Multinomial)
多项分布
$X = (X_1, X_2, …, X_k) \sim \text{Multinomial}(n, p_1, p_2, …, p_k)$
含义:进行 $n$ 次独立实验,每次结果属于 $k$ 类中的某一类,第 $i$ 类的概率为 $p_i$。
概率质量函数(PMF):
$$
P(X_1 = x_1, …, X_k = x_k) = \frac{n!}{x_1!x_2!\cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}
$$
其中 $sum x_i = n$, $\sum p_i = 1$
多元正态分布(Multivariate Normal Distribution)
这是最常见、最重要的多维连续分布之一。
✅ 定义:
$X = (X_1, X_2, …, X_n)^\top \sim \mathcal{N}(\mu, \Sigma)$
其中 $\mu$ 是 $n$ 维均值向量,$\Sigma$ 是 $n \times n$ 协方差矩阵。
✅ 密度函数:
$$
f_X(x) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (x - \mu)^\top \Sigma^{-1} (x - \mu) \right)
$$
✅ 性质:
- 每个 $X_i$ 都服从一维正态分布。
- 任意线性组合 $\sum a_i X_i$ 仍服从正态分布。
- 若 $\Sigma$ 是对角阵,则各维度独立。
多元均匀分布(Multivariate Uniform Distribution)
定义在某个多维矩形区域(或高维立方体)上的均匀分布。
例:二维均匀分布:
$$
f(x, y) =
\begin{cases}
\frac{1}{(b_1 - a_1)(b_2 - a_2)}, & a_1 \le x \le b_1,\ a_2 \le y \le b_2 \\
0, & \text{otherwise}
\end{cases}
$$
多元指数族分布(Exponential Family)
许多常见分布如正态、伯努利、伽马、泊松等都属于指数族,其多维扩展也可用于建模。
17.3 联合分布的一些重要性质
✅ 协方差矩阵:
$$
\Sigma = \text{Cov}(X) = \mathbb{E}[(X - \mu)(X - \mu)^\top]
$$
- 对称且半正定。
- $\Sigma_{ij} = \text{Cov}(X_i, X_j)$
✅ 相关系数矩阵:
$$
\rho_{ij} = \frac{\text{Cov}(X_i, X_j)}{\sqrt{\text{Var}(X_i)\text{Var}(X_j)}}
$$
✅ 若 $X_1, …, X_n$ 独立,则协方差矩阵为对角阵。
18. 卷积公式(Convolution Formula)
当两个相互独立的随机变量 $X$ 和 $Y$ 相加(即 $Z = X + Y$)时,我们想要知道 $Z$ 的概率分布。此时就需要使用卷积公式来计算 $Z$ 的分布。
卷积公式的形式取决于 $X$ 和 $Y$ 是离散型还是连续型变量。
18.1. 离散型卷积公式
如果 $X$ 和 $Y$ 是两个相互独立的离散型随机变量,则它们的和 $Z = X + Y$ 的概率质量函数(pmf)为:
$$
P(Z = z) = \sum_{k=-\infty}^{\infty} P(X = k) \cdot P(Y = z - k)
$$
这是离散卷积,相当于“滑动并叠加”的过程。
✅ 举例
假设 $X$ 和 $Y$ 都是取值为 $0, 1, 2$ 的变量,且:
- $P(X=0)=P(X=1)=P(X=2)=\frac{1}{3}$
- $P(Y=0)=P(Y=1)=P(Y=2)=\frac{1}{3}$
那么 $Z = X + Y$ 取值为 $0$ 到 $4$,比如:
$$
P(Z = 2) = P(X = 0)P(Y = 2) + P(X = 1)P(Y = 1) + P(X = 2)P(Y = 0) = \frac{1}{3} \cdot \frac{1}{3} + \frac{1}{3} \cdot \frac{1}{3} + \frac{1}{3} \cdot \frac{1}{3} = \frac{1}{3}
$$
18.2. 连续型卷积公式
如果 $X$ 和 $Y$ 是相互独立的连续型随机变量,具有概率密度函数(pdf) $f_X(x)$ 和 $f_Y(y)$,那么它们和 $Z = X + Y$ 的密度函数为:
$$
f_Z(z) = \int_{-\infty}^{\infty} f_X(x) \cdot f_Y(z - x) , dx
$$
这个积分称为连续型卷积。
✅ 举例
如果 $X, Y \sim \text{Uniform}(0,1)$,即均匀分布,那么:
- $f_X(x) = 1$ 当 $x \in [0,1]$
- $f_Y(y) = 1$ 当 $y \in [0,1]$
那么 $Z = X + Y$ 的密度函数为:
$$
f_Z(z) = \begin{cases}
z, & 0 \le z \le 1 \\
2 - z, & 1 < z \le 2 \\
0, & \text{otherwise}
\end{cases}
$$
这是一个三角形分布(Triangular distribution)。
卷积公式的几何意义(直观解释)
- 卷积可以看作是:把一个函数“翻转并滑动”另一个函数的过程。
- 概率意义上就是:把 $X$ 取某值的概率与 $Y$ 取补值的概率相乘后加总。
卷积的性质
- 交换律
- 结合律
- 若 $X$ 与 $Y$ 独立,且都服从正态分布,则 $X+Y$ 也服从正态分布。
19. 多维随机变量的特征数(Characteristics of Multivariate Random Variables)
在处理多个随机变量组成的向量时,我们需要用一组“特征数”来描述其统计特性。这些特征数不仅包括基本的期望、方差和协方差,还包括它们的矩阵表达形式与运算性质。
19.1. 多维随机变量的定义
设 $\mathbf{X} = \begin{pmatrix} X_1 \ X_2 \ \vdots \ X_n \end{pmatrix}$ 是一个 $n$ 维随机向量。我们希望研究这个向量的分布特征,可以用如下几个“特征数”来描述它的整体性质。
19.2. 期望向量(Mean Vector)
定义:
$$
\mathbb{E}[\mathbf{X}] = \begin{pmatrix}
\mathbb{E}[X_1] \\
\mathbb{E}[X_2] \\
\vdots \\
\mathbb{E}[X_n]
\end{pmatrix}
$$
表示每个变量的平均值。
🔧 运算性质(线性性):
设 $\mathbf{a}$ 是 $n \times 1$ 的常数向量,$A$ 是任意矩阵(维度合理):
- $\mathbb{E}[A \mathbf{X}] = A \mathbb{E}[\mathbf{X}]$
- $\mathbb{E}[\mathbf{a}^T \mathbf{X}] = \mathbf{a}^T \mathbb{E}[\mathbf{X}]$
19.3. 方差(Variance)和协方差(Covariance)
▪️ 单个变量的方差:
$$
\operatorname{Var}(X_i) = \mathbb{E}[(X_i - \mathbb{E}[X_i])^2]
$$
衡量 $X_i$ 的波动程度。
▪️ 两个变量的协方差:
$$
\operatorname{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j])]
$$
说明 $X_i$ 和 $X_j$ 的线性关系。
- $\operatorname{Cov}(X_i, X_j) > 0$:正相关
- $\operatorname{Cov}(X_i, X_j) < 0$:负相关
- $\operatorname{Cov}(X_i, X_j) = 0$:无线性相关
19.4. 协方差矩阵(Covariance Matrix)
所有变量间协方差构成一个矩阵:
$$
\Sigma = \operatorname{Cov}(\mathbf{X}) =
\begin{pmatrix}
\operatorname{Var}(X_1) & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_n) \\
\operatorname{Cov}(X_2, X_1) & \operatorname{Var}(X_2) & \cdots & \operatorname{Cov}(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\operatorname{Cov}(X_n, X_1) & \operatorname{Cov}(X_n, X_2) & \cdots & \operatorname{Var}(X_n)
\end{pmatrix}
$$
📌 性质:
- 对称性:$\Sigma^T = \Sigma$
- 半正定性:对任意非零向量 $\mathbf{a}$,有 $\mathbf{a}^T \Sigma \mathbf{a} \ge 0$
- 对角线:是各变量的方差
- 非对角线:是对应变量间的协方差
19.5. 协方差矩阵的运算性质
设 $A$ 是 $m \times n$ 的常数矩阵,$\mathbf{X}$ 是 $n \times 1$ 的随机向量:
✅ 协方差的线性变换:
$$
\operatorname{Cov}(A\mathbf{X}) = A \operatorname{Cov}(\mathbf{X}) A^T
$$
✅ 协方差的线性组合:
对任意常数向量 $\mathbf{a}, \mathbf{b}$,有:
$$
\operatorname{Cov}(\mathbf{a}^T \mathbf{X}, \mathbf{b}^T \mathbf{X}) = \mathbf{a}^T \Sigma \mathbf{b}
$$
19.6. 相关系数矩阵(Correlation Matrix)
将协方差矩阵标准化得到相关系数矩阵 $R$:
$$
\rho_{ij} = \frac{\operatorname{Cov}(X_i, X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}}
$$
$$
R = \begin{pmatrix}
1 & \rho_{12} & \cdots & \rho_{1n} \\
\rho_{21} & 1 & \cdots & \rho_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\rho_{n1} & \rho_{n2} & \cdots & 1
\end{pmatrix}
$$
📌 性质:
- 所有 $\rho_{ij} \in [-1, 1]$
- $\rho_{ij} = 1$ 或 $-1$ 表示完全线性相关
- $\rho_{ij} = 0$ 表示无线性相关(不等价于独立)
20. 期望、方差、协方差运算总结(Computation Rules for Expectation, Variance, and Covariance)
20.1. 期望(Expectation)
📌 基本定义:
对于随机变量 $X$,其期望为:
- 离散型:$\mathbb{E}[X] = \sum_x x \cdot P(X = x)$
- 连续型:$\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f_X(x), dx$
🛠 常见运算性质:
性质名称 | 公式 | 说明 |
---|---|---|
线性性 | $\mathbb{E}[aX + b] = a \mathbb{E}[X] + b$ | 常数可以提出来 |
可加性 | $\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$ | 即使 $X,Y$ 不独立也成立 |
对常数求期望 | $\mathbb{E}[c] = c$ | 常数的期望就是它本身 |
期望对函数的作用 | $\mathbb{E}[g(X)] \ne g(\mathbb{E}[X])$ 一般不成立 | 除非 $g$ 是线性函数 |
条件期望线性性 | $\mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z]$ |
20.2. 方差(Variance)
📌 基本定义:
$$
\operatorname{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2
$$
🛠 常见运算性质:
性质名称 | 公式 | 说明 |
---|---|---|
对常数无变化 | $\operatorname{Var}(c) = 0$ | 常数无波动 |
常数倍缩放 | $\operatorname{Var}(aX) = a^2 \operatorname{Var}(X)$ | 放缩成平方倍 |
平移不变性 | $\operatorname{Var}(X + c) = \operatorname{Var}(X)$ | 加常数不影响波动 |
可加性(独立) | 若 $X \perp Y$,则 $\operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$ | 仅在独立时成立 |
推广到线性组合 | 若 $X_1, \dots, X_n$ 独立:$\operatorname{Var}\left(\sum a_i X_i\right) = \sum a_i^2 \operatorname{Var}(X_i)$ |
20.3. 协方差(Covariance)
📌 基本定义:
$$
\operatorname{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]
$$
🛠 常见运算性质:
性质名称 | 公式 | 说明 |
---|---|---|
对称性 | $\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)$ | |
自身协方差 | $\operatorname{Cov}(X, X) = \operatorname{Var}(X)$ | |
与常数协方差 | $\operatorname{Cov}(X, c) = 0$ | 常数与变量无协变性 |
线性组合 | $\operatorname{Cov}(aX + b, cY + d) = ac, \operatorname{Cov}(X, Y)$ | 双线性关系 |
可加性 | $\operatorname{Cov}(X + Z, Y) = \operatorname{Cov}(X, Y) + \operatorname{Cov}(Z, Y)$ | |
零协方差不等价于独立 | $\operatorname{Cov}(X, Y) = 0 \not\Rightarrow X \perp Y$ |
20.4. 相关系数(Correlation Coefficient)
$$
\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \cdot \sqrt{\operatorname{Var}(Y)}}
$$
- $\rho_{XY} \in [-1, 1]$
- $\rho_{XY} = 0$:无线性相关(但不代表独立)
- $\rho_{XY} = \pm 1$:完全线性相关
20.5. 向量/矩阵形式下的运算
设 $\mathbf{X}$ 是 $n$ 维随机向量,$A$ 是 $m \times n$ 的常数矩阵:
✅ 期望运算(向量线性性):
$$
\mathbb{E}[A\mathbf{X}] = A \mathbb{E}[\mathbf{X}]
$$
✅ 协方差矩阵定义:
$$
\operatorname{Cov}(\mathbf{X}) = \Sigma = \mathbb{E}[(\mathbf{X} - \mathbb{E}[\mathbf{X}])(\mathbf{X} - \mathbb{E}[\mathbf{X}])^T]
$$
✅ 协方差的线性变换:
$$
\operatorname{Cov}(A \mathbf{X}) = A \Sigma A^T
$$
✅ 两个线性组合的协方差:
设 $\mathbf{a}, \mathbf{b}$ 为列向量,则:
$$
\operatorname{Cov}(\mathbf{a}^T \mathbf{X}, \mathbf{b}^T \mathbf{X}) = \mathbf{a}^T \Sigma \mathbf{b}
$$
类别 | 运算 | 公式 | 说明 |
---|---|---|---|
期望 | 线性性 | $\mathbb{E}[aX + bY] = a\mathbb{E}[X] + b\mathbb{E}[Y]$ | 不要求独立 |
方差 | 放缩 | $\operatorname{Var}(aX) = a^2 \operatorname{Var}(X)$ | |
方差 | 可加性 | $\operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$(独立) | 非独立要加协方差项 |
协方差 | 线性组合 | $\operatorname{Cov}(aX + b, cY + d) = ac, \operatorname{Cov}(X, Y)$ | |
协方差 | 可加性 | $\operatorname{Cov}(X+Z, Y) = \operatorname{Cov}(X, Y) + \operatorname{Cov}(Z, Y)$ | |
向量期望 | 线性性 | $\mathbb{E}[A \mathbf{X}] = A \mathbb{E}[\mathbf{X}]$ | |
向量协方差 | 变换 | $\operatorname{Cov}(A\mathbf{X}) = A \Sigma A^T$ | |
协方差矩阵 | 定义 | $\Sigma = \mathbb{E}[(\mathbf{X} - \mu)(\mathbf{X} - \mu)^T]$ |
21. 独立性与相关性的概念及关系
✅ 独立性(Independence)
两个随机变量 $X$ 和 $Y$ 独立,指的是它们的取值之间毫无关系,一个变量的发生不影响另一个的分布。
定义:
$X$ 和 $Y$ 独立 $\iff$ 对任意 $x, y$,有:
- 离散型:$P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$
- 连续型:$f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)$
简记为:联合分布 = 边缘分布的乘积
✅ 相关性(Correlation)
两个随机变量 $X$ 和 $Y$ 相关,指的是它们之间具有某种线性关系。
最常用的相关性度量是协方差与相关系数:
协方差:
$$
\operatorname{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]
$$相关系数:
$$
\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \cdot \sqrt{\operatorname{Var}(Y)}}
$$
$\rho_{XY}$ 值 | 含义 |
---|---|
$\rho = 1$ | 完全正相关(线性同方向) |
$\rho = -1$ | 完全负相关(线性反方向) |
$\rho = 0$ | 无线性相关 |
独立性 vs 相关性:异同对比
项目 | 独立性 | 相关性 |
---|---|---|
是否是线性关系 | 更强(任意关系都没有) | 只描述线性关系 |
判断方式 | 联合分布 = 边缘分布乘积 | 协方差或相关系数是否为零 |
数学量度 | $P(X, Y) = P(X)P(Y)$ | $\operatorname{Cov}(X, Y)$,$\rho_{XY}$ |
独立 $\Rightarrow$ 无相关? | ✅ 是的,独立 ⟹ $\rho_{XY} = 0$ | |
无相关 $\Rightarrow$ 独立? | ❌ 不一定!仅说明无线性关系 | |
举例说明 | 掷硬币两次 | $X = U$, $Y = U^2$,$U \sim \text{均匀}[-1,1]$,$\rho = 0$但非独立 |
✅ 独立 & 无相关的例子
两个独立的骰子 $X$ 和 $Y$:
- $P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$
- $\operatorname{Cov}(X, Y) = 0$
独立 ⟹ 无相关
❌ 无相关但不独立的例子
令 $U \sim \text{Uniform}[-1, 1]$,定义:
- $X = U$
- $Y = U^2$
则:
- $\operatorname{Cov}(X, Y) = 0$(计算可证)
- 但 $X$ 和 $Y$ 不独立($Y$ 完全由 $X$ 决定)
说明:无线性相关不等于独立!
📌 独立一定不相关,但不相关不代表独立。
可以记作:
独立 ⇒ 不相关,但 不相关 ⇏ 独立。
✅ 多个随机变量独立:
若 $X_1, X_2, \dots, X_n$ 相互独立,则:
- 联合密度/概率:$f(x_1, \dots, x_n) = f_{X_1}(x_1) \cdots f_{X_n}(x_n)$
- 对于任意线性组合,协方差为 0
✅ 两两无关 ≠ 相互独立:
- 两两无关:$\operatorname{Cov}(X_i, X_j) = 0$($i \ne j$)
- 相互独立:更强,所有子集联合分布可以拆分为乘积
如何判断独立?
实际问题中判断是否独立,有以下策略:
看是否是不同来源的随机机制(如两个硬币投掷)
检查是否满足 $P(X,Y) = P(X)P(Y)$(离散)
检查 $f_{X,Y}(x,y) = f_X(x)f_Y(y)$(连续)
若已知是高斯分布,则:
- 高斯变量中 $\operatorname{Cov}(X, Y) = 0$ ⟹ $X, Y$ 独立
22. 条件数学期望(Conditional Expectation)
条件期望表示:在知道某些信息(如另一个随机变量的值)的前提下,对一个随机变量的“平均”结果的估计。
22.1 离散型定义
若 $X, Y$ 是离散型随机变量,$P(Y = y) > 0$,则:
$$
\mathbb{E}[X \mid Y = y] = \sum_{x} x \cdot P(X = x \mid Y = y)
$$
22.2 连续型定义
若 $X, Y$ 是连续型随机变量,且 $f_Y(y) > 0$,则:
$$
\mathbb{E}[X \mid Y = y] = \int_{-\infty}^{\infty} x \cdot f_{X|Y}(x \mid y), dx
$$
其中:
$$
f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}
$$
✅ 条件期望是一个函数!
- $\mathbb{E}[X \mid Y]$ 本质上是关于 $Y$ 的函数
- 表示:每个不同的 $Y = y$,我们都有一个对应的 $\mathbb{E}[X \mid Y = y]$
- 所以 $\mathbb{E}[X \mid Y]$ 是一个随机变量!
条件期望的几何意义(理解辅助)
条件期望可以被理解为对 $X$ 在已知 $Y$ 情况下的“最佳线性估计”。
- 类似于投影操作($L^2$ 空间中的正交投影)
- $\mathbb{E}[X \mid Y]$ 是在知道 $Y$ 情况下对 $X$ 的最优“预测”或“估计”
条件期望的性质总结(重点记忆)
性质名称 | 表达式 | 说明 |
---|---|---|
线性性 | $\mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z]$ | |
全期望公式(迭代法则) | $\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]$ | 又称塔式法则 |
常量可提 | 若 $a$ 是常数,则 $\mathbb{E}[aX \mid Y] = a \mathbb{E}[X \mid Y]$ | |
给定变量函数 | 若 $g(Y)$ 是 $Y$ 的函数,则 $\mathbb{E}[g(Y) \mid Y] = g(Y)$ | |
条件期望是最佳估计 | $\mathbb{E}[X \mid Y]$ 是 $X$ 的最小均方误差估计(MMSE) |
22.3 条件期望的特例与拓展
📌 情况一:给定事件的条件期望
$$
\mathbb{E}[X \mid A] = \frac{\mathbb{E}[X \cdot \mathbf{1}_A]}{P(A)}
$$
📌 情况二:$X, Y$ 独立
如果 $X \perp Y$,则:
$$
\mathbb{E}[X \mid Y] = \mathbb{E}[X]
$$
即:知道 $Y$ 并不能提升对 $X$ 的预测能力。
22.4. 典型例题
【例1】设 $(X, Y)$ 的联合密度为:
$$
f(x, y) =
\begin{cases}
2, & 0 < x < y < 1 \\
0, & \text{否则}
\end{cases}
$$
求 $\mathbb{E}[X \mid Y = y]$
✅ 解:
- 找条件密度 $f_{X|Y}(x|y)$:
边缘密度 $f_Y(y) = \int_0^y 2, dx = 2y$
条件密度:
$$
f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} = \frac{2}{2y} = \frac{1}{y}, \quad 0 < x < y
$$
- 计算条件期望:
$$
\mathbb{E}[X \mid Y = y] = \int_0^y x \cdot \frac{1}{y}, dx = \frac{1}{y} \cdot \frac{y^2}{2} = \frac{y}{2}
$$
总结
📌 塔式法则要记牢:
$\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]$
📌 独立变量条件期望恒等于原期望:
$X \perp Y \Rightarrow \mathbb{E}[X \mid Y] = \mathbb{E}[X]$
📌 $\mathbb{E}[g(Y) \mid Y] = g(Y)$(即已知 $Y$ 后,其函数就是已知量)
23. 切比雪夫不等式(Chebyshev’s Inequality)
对于任意具有有限期望和方差的随机变量 $X$,对任意正数 $b > 0$,都有:
$$
\boxed{
P\left(|X - \mathbb{E}(X)| \geq b\right) \leq \frac{\operatorname{Var}(X)}{b^2}
}
$$
- 其中 $\mathbb{E}(X)$ 是 $X$ 的数学期望
- $\operatorname{Var}(X)$ 是 $X$ 的方差
一个随机变量偏离其均值超过任意正数 $b$ 的概率,有一个明确的上界 $\frac{\operatorname{Var}(X)}{b^2}$,只依赖于方差。
✅ 适用于任意分布类型(只要方差存在)
23.1 推导思路(基于马尔可夫不等式)
设 $Y = (X - \mathbb{E}(X))^2 \geq 0$
应用马尔可夫不等式:
$$
P(Y \geq b^2) \leq \frac{\mathbb{E}(Y)}{b^2}
$$即:
$$
P(|X - \mathbb{E}(X)| \geq b) \leq \frac{\operatorname{Var}(X)}{b^2}
$$
23.2 常见数值实例
令 $b = 2\sigma$,则:
$$
P(|X - \mathbb{E}(X)| \geq 2\sigma) \leq \frac{1}{4}
$$令 $b = 3\sigma$,则:
$$
P(|X - \mathbb{E}(X)| \geq 3\sigma) \leq \frac{1}{9}
$$
常见变形
写成下界形式:
$$
P\left(|X - \mathbb{E}(X)| < b\right) \geq 1 - \frac{\operatorname{Var}(X)}{b^2}
$$
23.3. 示例题
例题:设某随机变量 $X$ 满足 $\mathbb{E}(X) = 100$, $\operatorname{Var}(X) = 25$。问:
至少有多少概率使 $X$ 落在区间 $[90, 110]$ 中?
✅ 解:
我们令 $b = 10$,则:
$$
P(|X - 100| \geq 10) \leq \frac{25}{100} = 0.25
$$
所以:
$$
P(|X - 100| < 10) \geq 1 - 0.25 = 0.75
$$
✅ 答:至少有 75% 的概率 落在 $[90, 110]$ 之间。
切比雪夫不等式在形式上非常简洁:
$$
\boxed{
P\left(|X - \mathbb{E}(X)| \geq b\right) \leq \frac{\operatorname{Var}(X)}{b^2}
}
$$它对随机变量的分布几乎没有要求,只要求方差存在。
是实际应用与理论推导中的基础工具之一。
24. 大数定律
24.1. 依概率收敛(Convergence in Probability)
📌 定义:
设随机变量列 ${X_n}$,若存在常数 $X$,使得对任意 $\varepsilon > 0$:
$$
\lim_{n \to \infty} P(|X_n - X| > \varepsilon) = 0
$$
则称 $X_n$ 依概率收敛于 $X$,记作:
$$
X_n \xrightarrow{P} X
$$
在弱大数定律中,样本均值 $\overline{X}_n$ 通常 依概率收敛于 $\mathbb{E}[X]$,即:
$$
\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \mathbb{E}[X]
$$
24.2. 伯努利大数定律(Bernoulli’s Law of Large Numbers)
设 ${X_i}$ 为一列独立、同分布的0-1随机变量,例如重复抛硬币:
- $P(X_i = 1) = p$,$P(X_i = 0) = 1 - p$
定理陈述:
$$
\overline{X}_n \xrightarrow{P} p
$$
也就是说:
当重复试验次数 $n \to \infty$,事件发生的频率趋近于它的概率 $p$。
这是最早形式的大数定律,由雅可布·伯努利提出,是现代频率派概率理论的基础。
📘 举例:
抛硬币,$P(正面) = 0.5$,则长期来看,正面频率趋近于 $0.5$。
24.3. 切比雪夫大数定律(Chebyshev’s Law of Large Numbers)
📌 条件更宽松的弱大数定律形式:
设 $X_1, X_2, \dots, X_n$ 为两两独立、具有相同数学期望 $\mu$ 和相同有限方差 $\sigma^2$的随机变量,定义样本均值为:
$$
\frac{1}{n} \sum_{i=1}^n X_i
$$
则有:
$$
\overline{X}_n \xrightarrow{P} \mu
$$
✅ 推导基于切比雪夫不等式:
$$
P\left( |\overline{X}_n - \mu| \geq \varepsilon \right) \leq \frac{\operatorname{Var}(\overline{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n \varepsilon^2}
\to 0 \quad \text{当 } n \to \infty
$$
✅ 特点:
- 不要求严格独立同分布,只要“相同期望+有限方差+两两独立”
- 是弱大数定律的常见应用形式之一
- 推导简单,考试常用
24.4. 马尔可夫大数定律(Markov’s Law of Large Numbers)
设 ${X_i}$ 是一列两两独立、具有相同上界的数学期望且满足:
- $\sup \mathbb{E}[|X_i|] < \infty$
- $\displaystyle \lim_{n \to \infty} \frac{1}{n^2} \sum_{i=1}^n \operatorname{Var}(X_i) = 0$
则有:
$$
\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \mu
$$
✅ 理解方式:
- 更适合非等方差的情形
- 允许 $X_i$ 的方差不相等,但要求整体方差“增长不能太快”
- 是一种比切比雪夫定律更一般化的弱大数定律
🟦 总结对比
定律 | 收敛形式 | 要求 | 使用场景 |
---|---|---|---|
依概率收敛 | $\xrightarrow{P}$ | 定义型,不是定律 | 描述随机变量序列收敛趋势 |
伯努利定律 | $\xrightarrow{P} p$ | 0-1变量 + 独立同分布 | 重复试验/频率估计 |
切比雪夫定律 | $\xrightarrow{P} \mu$ | 相同期望 + 有限方差 + 两两独立 | 同分布或近似同分布情形 |
马尔可夫定律 | $\xrightarrow{P} \mu$ | 弱相似性 + 方差不增长过快 | 更一般的样本序列 |
25. 中心极限定理(Central Limit Theorem, CLT)
中心极限定理是概率论中极为重要的结论,它说明了大量独立随机变量之和的分布趋向于正态分布,即使这些随机变量本身不服从正态分布。
25.1 Lindeberg–Levy 中心极限定理(经典形式)
设 ${X_i}_{i=1}^\infty$ 是一列独立同分布的随机变量,满足:
- $\mathbb{E}[X_i] = \mu$
- $\operatorname{Var}(X_i) = \sigma^2 < \infty$
定义样本平均:
$$
\frac{1}{n} \sum_{i=1}^n X_i
$$
则有:
$$
\frac{\sqrt{n}(\overline{X}_n - \mu)}{\sigma} \xrightarrow{d} \mathcal{N}(0,1)
$$
🔍 说明:
- $\xrightarrow{d}$ 表示按分布收敛
- 结论表示,当样本量 $n$ 足够大时,$\overline{X}_n$ 的标准化结果近似服从标准正态分布
25.2 Lyapunov(隶莫夫)中心极限定理(推广形式)
设 ${X_i}_{i=1}^n$ 是一列彼此独立的随机变量,满足:
- $\mathbb{E}[X_i] = \mu_i$
- $\operatorname{Var}(X_i) = \sigma_i^2 < \infty$
记:
- $S_n = \sum_{i=1}^n X_i$
- $B_n^2 = \sum_{i=1}^n \sigma_i^2$
如果存在 $\delta > 0$,使得 Lyapunov 条件成立:
$$
\lim_{n \to \infty} \frac{1}{B_n^{2+\delta}} \sum_{i=1}^n \mathbb{E}\left[|X_i - \mu_i|^{2+\delta}\right] = 0
$$
则有:
$$
\frac{S_n - \sum_{i=1}^n \mu_i}{B_n} \xrightarrow{d} \mathcal{N}(0,1)
$$
26. 钜函数与矩母函数(PGF & MGF)
26.1 概率生成函数(Probability Generating Function, PGF)
📌 定义:
设 $X$ 是一个非负整数值的离散型随机变量,其概率质量函数为 $P(X = k) = p_k$,则其概率生成函数定义为:
$$
G_X(s) = \mathbb{E}[s^X] = \sum_{k=0}^\infty p_k s^k, \quad |s| \leq 1
$$
✅ 性质:
规范性:$G_X(1) = \sum_{k=0}^\infty p_k = 1$
求期望:$G_X’(1) = \mathbb{E}[X]$
求方差:
$$
\text{Var}(X) = G_X’’(1) + G_X’(1) - (G_X’(1))^2
$$卷积性质:若 $X$ 与 $Y$ 独立,$Z = X + Y$,则:
$$
G_Z(s) = G_X(s) \cdot G_Y(s)
$$
🎯 示例:泊松分布
若 $X \sim \mathrm{Poisson}(\lambda)$,则有:
$$
G_X(s) = e^{\lambda(s - 1)}
$$
26.2 矩母函数(Moment Generating Function, MGF)
📌 定义:
设 $X$ 是一个随机变量,若存在 $\epsilon > 0$ 使得期望存在,则其矩母函数定义为:
$$
M_X(t) = \mathbb{E}[e^{tX}], \quad t \in (-\epsilon, \epsilon)
$$
✅ 性质:
计算 $k$ 阶原点矩(raw moment):
$$
\mathbb{E}[X^k] = M_X^{(k)}(0)
$$即 $k$ 阶原点矩等于 $M_X(t)$ 在 $t=0$ 处的 $k$ 阶导数。
矩母函数的展开式:
$$
M_X(t) = 1 + \mathbb{E}[X]t + \frac{\mathbb{E}[X^2]}{2!}t^2 + \frac{\mathbb{E}[X^3]}{3!}t^3 + \cdots
$$唯一性:若 $M_X(t)$ 存在,则它唯一确定随机变量 $X$ 的分布。
卷积性质(独立变量加法):
$$
M_{X + Y}(t) = M_X(t) \cdot M_Y(t)
$$平移性质:
若 $Y = X + a$,则:$$
M_Y(t) = e^{at} \cdot M_X(t)
$$缩放性质:
若 $Y = bX$,则:$$
M_Y(t) = M_X(bt)
$$
🧮 示例1:正态分布
若 $X \sim N(\mu, \sigma^2)$,则:
$$
M_X(t) = \exp\left( \mu t + \frac{1}{2} \sigma^2 t^2 \right)
$$
🧮 示例2:指数分布
若 $X \sim \mathrm{Exp}(\lambda)$,则:
$$
M_X(t) = \frac{\lambda}{\lambda - t}, \quad t < \lambda
$$
26.3 原点矩与中心矩
1️⃣ 原点矩(Raw Moments):
原点矩是指关于原点 $0$ 的矩:
$$
\mu_k’ = \mathbb{E}[X^k] = M_X^{(k)}(0)
$$
前几个原点矩:
- 一阶原点矩:$mu_1’ = \mathbb{E}[X]$(期望)
- 二阶原点矩:$mu_2’ = \mathbb{E}[X^2]$
- 三阶原点矩:$mu_3’ = \mathbb{E}[X^3]$
2️⃣ 中心矩(Central Moments):
中心矩是指关于期望 $\mu = \mathbb{E}[X]$ 的矩:
$$
\mu_k = \mathbb{E}[(X - \mu)^k]
$$
- 一阶中心矩:$\mu_1 = 0$
- 二阶中心矩:$\mu_2 = \text{Var}(X)$
- 三阶中心矩:用于衡量偏态(skewness)
- 四阶中心矩:用于衡量峰度(kurtosis)
26.4 钜函数 vs 矩母函数 比较
对比项 | 钜函数 PGF | 矩母函数 MGF |
---|---|---|
定义公式 | $G_X(s) = \mathbb{E}[s^X]$ | $M_X(t) = \mathbb{E}[e^{tX}]$ |
适用范围 | 离散非负整数型变量 | 任意实值随机变量(若存在) |
导数意义 | $G^{(k)}(1)$ 与 $k$ 阶阶乘矩相关 | $M^{(k)}(0) = \mathbb{E}[X^k]$ |
分布确定性 | 不一定唯一 | 若存在,则唯一确定分布 |
应用 | 组合性质、计数问题、泊松、二项等 | 计算矩、证明极限定理等 |
26.5 特征函数
当 MGF 不存在时,我们通常使用特征函数:
$$
\phi_X(t) = \mathbb{E}[e^{itX}]
$$
特征函数总是存在,且也唯一确定分布,应用于中心极限定理、收敛性分析等。
27. 随机游走
随机游走指的是:一个随机过程 ${S_n}_{n\ge0}$ 从一个初始位置开始,每一步按照一定的概率向某个方向移动。
最简单的模型就是 一维对称随机游走:
初始位置 $S_0 = 0$
每一步:
$$
S_{n} = S_{n-1} + X_n
$$其中 $X_n$ 服从:
$$
P(X_n = +1) = p, \quad P(X_n = -1) = q = 1-p
$$如果 $p = q = 0.5$,称为 对称随机游走;否则称为 非对称随机游走。
分布规律
由于每一步是独立同分布的,走到第 $n$ 步时:
$$
S_n = X_1 + X_2 + \dots + X_n
$$
于是:
$S_n$ 的期望:
$$
E[S_n] = n (p-q) = n (2p - 1)
$$方差:
$$
Var(S_n) = 4pq \cdot n
$$分布:
$$
P(S_n = k) = \binom{n}{\frac{n+k}{2}} p^{\frac{n+k}{2}} q^{\frac{n-k}{2}}, \quad k \equiv n \pmod 2
$$(注意 $k$ 与 $n$ 必须同奇偶性,否则概率为 0)
位置的对称性(对称随机游走)
如果 $p = 0.5$,那么:
$$
P(S_n = k) = P(S_n = -k)
$$
分布以原点为中心对称。
返回原点的概率
在对称随机游走中:
- 第一次回到原点的概率随步数增加会变小
- 在一维和二维的对称随机游走中,几乎必然会无限次回到原点(重现性 recurrent)
- 在三维及更高维中,随机游走可能永远不回到原点(暂留性 transient)
吸收概率
假设在整数轴上设置两个吸收壁垒 $0$ 和 $N$,随机游走从位置 $i$ 出发,最终被吸收到 $N$ 的概率:
$$
P_i =
\begin{cases}
\dfrac{1 - (q/p)^i}{1 - (q/p)^N}, & p \neq q \
\dfrac{i}{N}, & p = q = 0.5
\end{cases}
$$
这是经典的赌徒破产问题(Gambler’s Ruin)。
连续极限 — 布朗运动
如果步长 $\delta$ 很小、时间间隔 $\tau$ 也很小,并让:
$$
\delta \to 0, \quad \tau \to 0, \quad \frac{\delta^2}{\tau} \to \sigma^2
$$
那么随机游走的极限过程就是 布朗运动 $B_t$,它满足:
$$
B_t \sim N(0, \sigma^2 t)
$$
这是随机游走和随机微分方程之间的桥梁。
应用领域
- 金融:股票价格的简单模型(随机游走假说)
- 物理:粒子的布朗运动、扩散过程
- 计算机科学:蒙特卡罗算法、随机搜索
- 生物学:分子随机运动、动物觅食路径
例:在对称随机游走中,经过 4 步,位置恰好回到原点的概率是多少?
解:
- 回到原点表示 4 步中正好有 2 步向右、2 步向左:
$$
P = \frac{\binom{4}{2}}{2^4} = \frac{6}{16} = \frac{3}{8}
$$
28. 不偏估计量和最大似然估计
28.1 不偏估计量 (Unbiased Estimator)
设总体参数为 $\theta$,样本 $X_1, X_2, \dots, X_n$ 来自分布 $f(x;\theta)$。
如果估计量 $\hat{\theta}(X_1,\dots,X_n)$ 满足
$$
\mathbb{E}[\hat{\theta}] = \theta,
$$
则称 $\hat{\theta}$ 是 $\theta$ 的 不偏估计量。
也就是说,平均意义下估计不会“偏大”或“偏小”。
常见例子
均值的估计
总体均值 $\mu$ 的不偏估计量是样本均值:$$
\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i, \quad \mathbb{E}[\bar{X}] = \mu.
$$方差的估计
总体方差 $\sigma^2$ 的不偏估计量是:$$
S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2, \quad \mathbb{E}[S^2] = \sigma^2.
$$
28.2 最大似然估计 (Maximum Likelihood Estimation, MLE)
给定样本 $X_1, X_2, \dots, X_n$ 来自分布 $f(x;\theta)$,考虑似然函数:
$$
L(\theta) = \prod_{i=1}^n f(X_i;\theta).
$$
通常取对数似然函数(简化计算):
$$
\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(X_i;\theta).
$$
解方程:
$$
\frac{d}{d\theta}\ell(\theta) = 0
$$
得到估计量。
常见例子
正态分布均值估计
假设 $X_1,\dots,X_n \sim N(\mu,\sigma^2)$,且 $\sigma^2$ 已知。对数似然:
$$
\ell(\mu) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2.
$$一阶导数:
$$
\frac{d}{d\mu}\ell(\mu) = \frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu) = 0.
$$解得:
$$
\hat{\mu}_{\text{MLE}} = \bar{X}.
$$
伯努利分布参数估计
$X_i \sim Ber(p)$,则似然函数:$$
L(p) = p^{\sum X_i}(1-p)^{n-\sum X_i}.
$$对数似然:
$$
\ell(p) = \left(\sum X_i\right)\log p + \left(n-\sum X_i\right)\log(1-p).
$$导数为零:
$$
\frac{\sum X_i}{p} - \frac{n-\sum X_i}{1-p} = 0.
$$
28.3 对比与关系
特点 | 不偏估计量 | 最大似然估计量 (MLE) |
---|---|---|
定义 | 期望等于真实参数 | 使似然函数最大化 |
是否唯一 | 可能有多个不偏估计量 | 一般唯一 |
计算方法 | 用期望公式验证 | 构造似然函数求极值 |
优点 | 无系统偏差 | 常常渐近无偏且方差最小 |
缺点 | 不保证方差最小 | 小样本时可能有偏 |
典型例子 | $\bar{X}$ 是 $\mu$ 的不偏估计 | $\bar{X}$ 也是 $\mu$ 的 MLE |
📌 总结:
- 不偏估计量强调“平均正确”;
- 最大似然估计强调“样本最可能出现”;
- 在很多经典分布中,MLE 与不偏估计量是相同的(比如正态分布均值)。
- 但在一些情况(如方差估计),MLE 是有偏的,需要修正才成为不偏估计量。
偷偷说
概率论在我看来还是一个很麻烦的学科www,其中有很多推导证明以及一连串的公式真让人头大。