Probability Theory

Probability Theory

本篇笔记主要回顾一下概率论的相关内容。全文没有严格的上下文关系:)

催更|辅导|私塾兼职|联系偷偷:LifeGoesOn_Rio

1. 概率论中集合运算的关系

1.1. 基本集合运算定义

  • 并集(Union):
    $A \cup B = {x \mid x \in A \text{ or } x \in B}$

  • 交集(Intersection):
    $A \cap B = {x \mid x \in A \text{ and } x \in B}$

  • 补集(Complement):
    $A^c = {x \mid x \notin A}$

  • 差集(Difference):
    $A \setminus B = {x \mid x \in A \text{ and } x \notin B}$

  • 对称差(Symmetric Difference):
    $A \triangle B = (A \setminus B) \cup (B \setminus A)$


1.2. 基本关系与恒等律

  • 幂等律:

    $$
    A \cup A = A,\quad A \cap A = A
    $$

  • 交换律:

    $$
    A \cup B = B \cup A,\quad A \cap B = B \cap A
    $$

  • 结合律:

    $$
    (A \cup B) \cup C = A \cup (B \cup C) \
    (A \cap B) \cap C = A \cap (B \cap C)
    $$

  • 分配律:

    $$
    A \cup (B \cap C) = (A \cup B) \cap (A \cup C) \
    A \cap (B \cup C) = (A \cap B) \cup (A \cap C)
    $$

  • 吸收律:

    $$
    A \cup (A \cap B) = A,\quad A \cap (A \cup B) = A
    $$

  • 双重补集:

    $$
    (A^c)^c = A
    $$


1.3. 德摩根律(De Morgan’s Laws)

  • 对于两个集合:

    $$
    (A \cup B)^c = A^c \cap B^c \
    (A \cap B)^c = A^c \cup B^c
    $$

  • 对于有限多个集合:

    $$
    \left( \bigcup_{i=1}^{n} A_i \right)^c = \bigcap_{i=1}^{n} A_i^c \
    \left( \bigcap_{i=1}^{n} A_i \right)^c = \bigcup_{i=1}^{n} A_i^c
    $$


1.4. 空集与全集关系(以样本空间 $\Omega$ 为全集)

  • 空集性质:

    $$
    A \cup \varnothing = A,\quad A \cap \varnothing = \varnothing
    $$

  • 全集性质:

    $$
    A \cup \Omega = \Omega,\quad A \cap \Omega = A
    $$

  • 补集相关:

    $$
    A \cup A^c = \Omega,\quad A \cap A^c = \varnothing
    $$


1.5. 包含与等价关系

  • 包含关系:
    $A \subseteq B \Leftrightarrow A \cup B = B \text{ 且 } A \cap B = A$

  • 等价关系:
    $A = B \Leftrightarrow A \subseteq B \text{ 且 } B \subseteq A$


1.6. 其他常用运算公式

  • 差集转化为交集与补集:

    $$
    A \setminus B = A \cap B^c
    $$

  • 对称差公式:

    $$
    A \triangle B = (A \cup B) \setminus (A \cap B)
    $$

  • 差集运算公式:

$$
A \setminus B = A \cap B^c = A \setminus (A \cap B) = A(1 - B)
$$

2. 概率的基本性质与公式

概率是描述某一事件发生可能性的数学工具。在概率论中,概率满足以下基本公理和由此推导出的一系列常用公式。


2.1 概率的三大公理(Kolmogorov 公理)

设 $\Omega$ 为样本空间,$\mathcal{F}$ 为事件集合,$P(\cdot)$ 为概率函数,则概率满足以下 三条基本公理

  1. 非负性(Non-negativity):

    $$
    \forall A \in \mathcal{F}, \quad P(A) \geq 0
    $$

  2. 规范性(Normalization):

    $$
    P(\Omega) = 1
    $$

  3. 可列可加性(Countable Additivity):

    若 $A_1, A_2, A_3, \dots$ 两两互不相交(即 $A_i \cap A_j = \varnothing$,$i \ne j$),则:

    $$
    P\left(\bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i)
    $$


2.2 基本推论与常用公式

1. 空集的概率为 0:

$$
P(\varnothing) = 0
$$

2. 子集关系:

若 $A \subseteq B$,则:

$$
P(A) \leq P(B)
$$

3. 补集公式:

$$
P(A^c) = 1 - P(A)
$$

4. 有限可加性(两个事件的并):

对于任意事件 $A$ 和 $B$,

$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$

如果 $A$ 和 $B$ 互斥(即 $A \cap B = \varnothing$),则:

$$
P(A \cup B) = P(A) + P(B)
$$

5. 差集的概率:

$$
P(A \setminus B) = P(A) - P(A \cap B)
$$

6. 三事件并的公式:

对于任意事件 $A, B, C$:

$$
\begin{aligned}
P(A \cup B \cup C) &= P(A) + P(B) + P(C) \\
&\quad - P(A \cap B) - P(A \cap C) - P(B \cap C) \\
&\quad + P(A \cap B \cap C)
\end{aligned}
$$

7. 有限全集划分公式(全概率定理基础形式):

若 $A_1, A_2, \dots, A_n$ 构成不相交且覆盖全集的划分(即 $\bigcup A_i = \Omega$ 且 $A_i \cap A_j = \varnothing$,$i \ne j$),则对于任意事件 $B$:

$$
P(B) = \sum_{i=1}^{n} P(B \cap A_i)
$$


2.3 概率的范围限制

概率总是介于 0 与 1 之间:

$$
0 \leq P(A) \leq 1
$$

3. 条件概率与贝叶斯公式(Conditional Probability and Bayes’ Theorem)

3.1 条件概率的定义

设事件 $A$ 和 $B$ 满足 $P(B) > 0$,则 在事件 $B$ 发生的条件下,事件 $A$ 发生的概率,称为条件概率,记作 $P(A \mid B)$:

$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)}
$$

同理,也有:

$$
P(B \mid A) = \frac{P(A \cap B)}{P(A)}
$$

条件概率体现的是 “在某个背景下概率的重新评估”


3.2 条件概率的性质

  1. 非负性:

    $$
    P(A \mid B) \geq 0
    $$

  2. 规范性($B$ 发生的背景下):

    $$
    P(B \mid B) = 1
    $$

  3. 可加性:
    若 $A_1, A_2$ 不相交,则:

    $$
    P(A_1 \cup A_2 \mid B) = P(A_1 \mid B) + P(A_2 \mid B)
    $$


3.3 乘法公式(乘法定理)

由条件概率定义可得:

$$
P(A \cap B) = P(B) \cdot P(A \mid B) = P(A) \cdot P(B \mid A)
$$

如果有多个事件 $A_1, A_2, \dots, A_n$,则:

$$
P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots
$$


3.4 全概率公式(Law of Total Probability)

设 ${B_1, B_2, \dots, B_n}$ 是一个完备事件组(划分样本空间的互不相交事件)且 $P(B_i) > 0$,则对于任意事件 $A$ 有:

$$
P(A) = \sum_{i=1}^n P(B_i) \cdot P(A \mid B_i)
$$

这表示从多个路径计算 $A$ 的“总概率”。


3.5 贝叶斯公式(Bayes’ Theorem)

贝叶斯公式用于在已知结果的情况下“倒推出原因”的概率。它是全概率公式的逆向应用。

设 ${B_1, B_2, \dots, B_n}$ 是一个样本空间的划分,$P(B_i) > 0$,且 $P(A) > 0$,则:

$$
P(B_i \mid A) = \frac{P(B_i) \cdot P(A \mid B_i)}{\sum_{j=1}^{n} P(B_j) \cdot P(A \mid B_j)}
$$

🔍 通俗理解:已知事件 $A$ 发生,求“是谁导致了 $A$”,概率最大的那个 $B_i$ 通常被认为是最可能的原因。


3.6 示例:诊断问题中的贝叶斯公式

  • 某疾病的患病率为 $P(D) = 0.01$

  • 检测准确率如下:

    • 真阳性率:$P(\text{Pos} \mid D) = 0.99$
    • 假阳性率:$P(\text{Pos} \mid D^c) = 0.05$

问:一个人检测为阳性,实际患病的概率是多少?即求:

$$
P(D \mid \text{Pos}) = \frac{P(D) \cdot P(\text{Pos} \mid D)}{P(D) \cdot P(\text{Pos} \mid D) + P(D^c) \cdot P(\text{Pos} \mid D^c)}
$$

代入得:

$$
P(D \mid \text{Pos}) = \frac{0.01 \cdot 0.99}{0.01 \cdot 0.99 + 0.99 \cdot 0.05} \approx 0.1667
$$

✅ 即使测试很准,但因为总体患病率低,**阳性者真的患病的概率只有约 16.7%**,这就是贝叶斯定理的威力。

4. 全概率公式(Law of Total Probability)

4.1 定义与背景

在很多实际问题中,我们很难直接计算一个事件 $A$ 的概率,但我们可以将样本空间划分成若干个互不相交的子事件 $B_1, B_2, \dots, B_n$,然后利用这些子事件来间接求 $A$ 的概率,这就是全概率公式的思想。


4.2 全概率公式内容

设事件组 ${B_1, B_2, \dots, B_n}$ 满足:

  • 两两互不相交(即 $B_i \cap B_j = \varnothing,\ i \ne j$)
  • 它们构成对样本空间 $\Omega$ 的一个划分(即 $\bigcup_{i=1}^n B_i = \Omega$)
  • 每个 $B_i$ 的概率都大于 0,即 $P(B_i) > 0$

则对于任意事件 $A$,有:

$$
P(A) = \sum_{i=1}^{n} P(B_i) \cdot P(A \mid B_i)
$$


4.3 通俗理解

可以理解为:

“事件 $A$ 的发生可能由若干种不同的原因 $B_i$ 导致,分别计算在每种原因下 $A$ 的条件概率,然后按每种原因发生的概率加权求和。”


4.4 推导思路

根据乘法公式:

$$
P(A \cap B_i) = P(B_i) \cdot P(A \mid B_i)
$$

又因为 $A$ 可以表示为:

$$
A = (A \cap B_1) \cup (A \cap B_2) \cup \dots \cup (A \cap B_n)
$$

且这些交集事件互不相交,于是有:

$$
P(A) = \sum_{i=1}^{n} P(A \cap B_i) = \sum_{i=1}^{n} P(B_i) \cdot P(A \mid B_i)
$$


4.5 经典例题

一个工厂有三台机器 $M_1$, $M_2$, $M_3$ 生产产品,它们分别生产 30%、50%、20% 的产品,次品率分别是 2%、3%、4%。问:随机取出一个产品,它是次品的概率是多少?

设:

  • $B_1$:来自 $M_1$,$P(B_1) = 0.3$,$P(\text{次品} \mid B_1) = 0.02$
  • $B_2$:来自 $M_2$,$P(B_2) = 0.5$,$P(\text{次品} \mid B_2) = 0.03$
  • $B_3$:来自 $M_3$,$P(B_3) = 0.2$,$P(\text{次品} \mid B_3) = 0.04$

代入全概率公式:

$$
\begin{aligned}
P(\text{次品}) &= P(B_1) \cdot P(\text{次品} \mid B_1) + P(B_2) \cdot P(\text{次品} \mid B_2) + P(B_3) \cdot P(\text{次品} \mid B_3) \\
&= 0.3 \cdot 0.02 + 0.5 \cdot 0.03 + 0.2 \cdot 0.04 \\
&= 0.006 + 0.015 + 0.008 = 0.029
\end{aligned}
$$

所以产品是次品的概率为2.9%。

5. 独立性与条件独立性(Independence & Conditional Independence)

5.1 两个事件的独立性(Independence of Two Events)

👉 定义:

若两个事件 $A$ 和 $B$ 满足:

$$
P(A \cap B) = P(A) \cdot P(B)
$$

则称 $A$ 与 $B$ 相互独立(independent),记作:

$$
A \perp B
$$

如果 $A$ 与 $B$ 独立,一个事件是否发生不会影响另一个事件的发生概率

即:

$$
P(A \mid B) = P(A), \quad P(B \mid A) = P(B)
$$


5.2 多个事件的独立性(Mutual Independence)

三个及以上事件的独立性必须满足更强的条件:

事件 $A_1, A_2, \dots, A_n$ 相互独立 当且仅当,对任意子集 ${i_1, i_2, \dots, i_k}$ 都有:

$$
P(A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_k}) = P(A_{i_1}) \cdot P(A_{i_2}) \cdots P(A_{i_k})
$$

例如,$A_1, A_2, A_3$ 三个事件独立需要满足:

  • $P(A_1 \cap A_2) = P(A_1)P(A_2)$
  • $P(A_1 \cap A_3) = P(A_1)P(A_3)$
  • $P(A_2 \cap A_3) = P(A_2)P(A_3)$
  • $P(A_1 \cap A_2 \cap A_3) = P(A_1)P(A_2)P(A_3)$

✅ 所以 两两独立不代表完全独立(mutual independence)


5.3 条件独立性(Conditional Independence)

👉 定义:

给定事件 $C$,如果事件 $A$ 和 $B$ 满足:

$$
P(A \cap B \mid C) = P(A \mid C) \cdot P(B \mid C)
$$

则称 $A$ 与 $B$ 在 $C$ 条件下独立,记作:

$$
A \perp B \mid C
$$

虽然 $A$ 与 $B$ 在总体上可能有关,但在知道 $C$ 发生的前提下,它们变得无关

举个例子:

  • $A$:某人感冒
  • $B$:某人发烧
  • $C$:该人感染了病毒

则 $A$ 和 $B$ 在总体上可能有关联,但在给定 $C$(病毒感染)的前提下,$A$ 和 $B$ 的概率分布是独立的。


5.4 常见误区说明:

概念 要点 易错点
独立性 $P(A \cap B) = P(A)P(B)$ 与“互斥”不同,互斥事件不能同时发生,但可能不独立
条件独立性 $P(A \cap B \mid C) = P(A \mid C)P(B \mid C)$ 条件独立 ≠ 无条件独立
两两独立 任意两个事件独立 不等价于相互独立(mutual independence)

5.5 示例题(简要)

已知 $P(A) = 0.5,\ P(B) = 0.6,\ P(A \cap B) = 0.3$,判断 $A$ 与 $B$ 是否独立?

计算:

$$
P(A) \cdot P(B) = 0.5 \cdot 0.6 = 0.3
$$

因为 $P(A \cap B) = 0.3$,所以:

$A$ 与 $B$ 是独立的

6. 随机变量(Random Variable)

6.1 随机变量的定义

在概率论中,随机变量是对试验结果进行数值表示的函数。

👉 数学定义:

设样本空间为 $\Omega$,一个随机变量 $X$ 是一个函数:

$$
X: \Omega \rightarrow \mathbb{R}
$$

它将样本空间中的每一个元素 $\omega \in \Omega$ 映射为实数 $X(\omega)$。

✅ 通俗理解:随机变量是把“事件结果”转化为“数值”的工具。


6.2 随机变量的分类

1. 离散型随机变量(Discrete Random Variable)

如果随机变量的取值是有限个或可数无限个,称为离散型。

例子:

  • 投掷骰子:$X = \text{点数} \in {1,2,3,4,5,6}$
  • 抛硬币若干次直到第一次正面:$X \in {1,2,3,\dots}$

2. 连续型随机变量(Continuous Random Variable)

如果随机变量可以在一个实数区间内连续取值,则称为连续型。

例子:

  • 一根木棍长度 $X \in [0, 100]$
  • 电压 $X \in \mathbb{R}$

6.3 随机变量的事件定义

随机变量定义完后,我们可以通过它来描述事件,例如:

  • “事件 $X = 2$” 实际表示的是 $X^{-1}({2}) = {\omega \in \Omega \mid X(\omega) = 2}$
  • “事件 $X < 5$” 表示的是 $X^{-1}((-\infty, 5))$

这使我们能在数轴上处理事件,而不是抽象的样本空间。


6.4 分布函数(Distribution Function)

设 $X$ 是一个随机变量,其分布函数(CDF)定义为:

$$
F_X(x) = P(X \leq x)
$$

这是描述随机变量最重要的工具之一。

✅ 分布函数的性质:

  1. 单调非减:

    $$
    x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)
    $$

  2. 左连续:

    $$
    \lim_{t \to x^-} F_X(t) = F_X(x)
    $$

  3. 极限性质:

    $$
    \lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1
    $$


6.5 常见随机变量举例

名称 类型 常用记号 定义域 示例
伯努利分布 离散型 $X \sim \text{Bern}(p)$ ${0,1}$ 抛一次硬币
二项分布 离散型 $X \sim B(n, p)$ ${0,1,\dots,n}$ 抛硬币 $n$ 次
几何分布 离散型 $X \sim \text{Geom}(p)$ ${1,2,3,\dots}$ 第一次成功的试验次数
均匀分布 连续型 $X \sim U(a, b)$ $[a,b]$ 等概率抽取
正态分布 连续型 $X \sim N(\mu, \sigma^2)$ $\mathbb{R}$ 自然现象、误差
指数分布 连续型 $X \sim \text{Exp}(\lambda)$ $[0, \infty)$ 等待时间

6.6 小结

  • 随机变量是从事件到数值的桥梁。
  • 离散型和连续型是两大类。
  • 分布函数 $F_X(x) = P(X \leq x)$ 是描述随机变量行为的核心工具。

7. 累积分布函数(CDF)

设 $X$ 是一个随机变量,其累积分布函数(CDF)定义为:

$$
F_X(x) = P(X \leq x)
$$

即,随机变量 $X$ 取值小于等于 $x$ 的概率。


7.1 CDF 的基本性质:

对于任意随机变量 $X$,其 CDF $F_X(x)$ 满足以下性质:

  1. 非递减性(Monotonicity)

    $$
    x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)
    $$

  2. 右连续性(Right-continuity)

    $$
    \lim_{\varepsilon \to 0^+} F_X(x + \varepsilon) = F_X(x)
    $$

  3. 取值范围(Range)

    $$
    \lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1
    $$

  4. 概率的区间表示
    对任意 $a < b$,

    $$
    P(a < X \leq b) = F_X(b) - F_X(a)
    $$


7.2 离散型随机变量的 CDF:

若 $X$ 为离散型随机变量,具有概率质量函数(PMF) $p(x_i) = P(X = x_i)$,则:

$$
F_X(x) = \sum_{x_i \leq x} p(x_i)
$$

例子:设 $X$ 的取值为 $1, 2, 3$,且:

  • $P(X=1)=0.2$,
  • $P(X=2)=0.5$,
  • $P(X=3)=0.3$。

则 $F_X(x)$ 为:

  • $F_X(1) = 0.2$
  • $F_X(2) = 0.7$
  • $F_X(3) = 1.0$

7.3 连续型随机变量的 CDF:

若 $X$ 为连续型随机变量,其概率密度函数(PDF)为 $f(x)$,则:

$$
F_X(x) = \int_{-\infty}^{x} f(t) , dt
$$

并且:

$$
f(x) = \frac{d}{dx}F_X(x)
$$


7.4 常见分布的 CDF 示例:

  1. **均匀分布 $U(a, b)$**:

    $$
    F_X(x) = \begin{cases}
    0 & x < a \\
    \frac{x - a}{b - a} & a \leq x \leq b \\
    1 & x > b
    \end{cases}
    $$

  2. **标准正态分布 $\mathcal{N}(0, 1)$**:

    $$
    F_X(x) = \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-t^2/2} , dt
    $$

(注意:$\Phi(x)$ 无解析表达式,通常查表或用数值方法)

📎 注意事项:

  • CDF 是每个随机变量都存在的,即使它既不是纯粹离散也不是纯粹连续(如混合型)。
  • CDF 是研究概率分布的基本工具,能完全刻画一个随机变量的分布。

8. 期望和方差

8.1. 期望(Expectation)

离散型随机变量 $X$

如果 $X$ 的概率质量函数为 $P(X = x_i) = p_i$,则其期望定义为:

$$
\mathbb{E}[X] = \sum_i x_i \cdot p_i
$$

连续型随机变量 $X$

如果 $X$ 的概率密度函数为 $f(x)$,则期望为:

$$
\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f(x) , dx
$$

期望的性质

  • 线性性:对任意常数 $a, b$ 和随机变量 $X, Y$ 有:

    $$
    \mathbb{E}[aX + bY] = a \mathbb{E}[X] + b \mathbb{E}[Y]
    $$

  • 若 $c$ 为常数,则:

    $$
    \mathbb{E}[c] = c
    $$


8.2. 方差(Variance)

方差衡量随机变量与其期望的偏离程度。

$$
\mathrm{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2]
$$

也可以表示为:

$$
\mathrm{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2
$$

方差的性质

  • 常数的方差为 0

    $$
    \mathrm{Var}(c) = 0
    $$

  • 常数乘积

    $$
    \mathrm{Var}(aX + b) = a^2 \cdot \mathrm{Var}(X)
    $$


8.3. 协方差与相关系数

  • 协方差定义

    $$
    \mathrm{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]
    $$

  • 相关系数(标准化的协方差):

    $$
    \rho_{X,Y} = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X)} \cdot \sqrt{\mathrm{Var}(Y)}}
    $$

9. Markov 不等式(Markov’s Inequality)

$$
\mathbb{P}(X \ge a) \le \frac{\mathbb{E}[X]}{a}
$$

10. Chebyshev 不等式(Chebyshev’s Inequality)

设随机变量 $X$ 的期望为 $\mu = \mathbb{E}[X]$,方差为 $\sigma^2 = \mathrm{Var}(X)$,那么对于任意 $\varepsilon > 0$,有:

$$
\mathbb{P}(|X - \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2}
$$

令 $Y = (X - \mu)^2$,因为 $Y \ge 0$,可以对其使用 Markov 不等式

$$
\mathbb{P}(Y \ge \varepsilon^2) \le \frac{\mathbb{E}[Y]}{\varepsilon^2}
$$

又因为:

$$
Y = (X - \mu)^2,\quad \mathbb{E}[Y] = \mathrm{Var}(X) = \sigma^2
$$

所以,

$$
\mathbb{P}((X - \mu)^2 \ge \varepsilon^2) \le \frac{\sigma^2}{\varepsilon^2}
$$

注意到事件 ${(X - \mu)^2 \ge \varepsilon^2}$ 与事件 ${|X - \mu| \ge \varepsilon}$ 是等价的,因此:

$$
\mathbb{P}(|X - \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2}
$$

证毕。

11. 常见离散型分布

11.1. Bernoulli 分布(伯努利分布)

  • 定义:只有两个可能结果(成功或失败),成功的概率为 $p$,失败的概率为 $1 - p$。

  • 概率质量函数(PMF)

    $$
    \mathbb{P}(X = x) =
    \begin{cases}
    p, & x = 1 \\
    1 - p, & x = 0
    \end{cases}
    $$

  • 期望:$\mathbb{E}[X] = p$

  • 方差:$\mathrm{Var}(X) = p(1 - p)$


11.2. Binomial 分布(二项分布)

  • 定义:进行 $n$ 次独立伯努利试验,每次成功概率为 $p$,$X$ 表示成功次数。

  • PMF

    $$
    \mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k},\quad k = 0, 1, \dots, n
    $$

  • 期望:$\mathbb{E}[X] = np$

  • 方差:$\mathrm{Var}(X) = np(1 - p)$


11.3. Geometric 分布(几何分布)

  • 定义:第一次成功所需的试验次数(包括成功的那次),每次独立试验成功概率为 $p$。

  • PMF

    $$
    \mathbb{P}(X = k) = (1 - p)^{k - 1} p,\quad k = 1, 2, 3, \dots
    $$

  • 期望:$\mathbb{E}[X] = \frac{1}{p}$

  • 方差:$\mathrm{Var}(X) = \frac{1 - p}{p^2}$


11.4. Poisson 分布(泊松分布)

  • 定义:单位时间或单位面积内发生某事件的次数。常用于稀有事件建模。

  • PMF

    $$
    \mathbb{P}(X = k) = \frac{\lambda^k e^{-\lambda}}{k!},\quad k = 0, 1, 2, \dots
    $$

  • 期望:$\mathbb{E}[X] = \lambda$

  • 方差:$\mathrm{Var}(X) = \lambda$


11.5. Hypergeometric 分布(超几何分布)

  • 定义:从 $N$ 个元素中不放回地抽取 $n$ 个,其中有 $K$ 个是“成功”,$X$ 表示抽到的成功个数。

  • PMF

    $$
    \mathbb{P}(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}},\quad \max(0, n - N + K) \le k \le \min(n, K)
    $$

  • 期望:$\mathbb{E}[X] = n \cdot \frac{K}{N}$

  • 方差
    $$
    \mathrm{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1}
    $$

12. 常见连续型分布

12.1 均匀分布(Uniform Distribution)

  • 定义域:$X \sim U(a, b)$,其中 $a < b$

  • 概率密度函数(PDF)

    $$
    f(x) = \begin{cases}
    \frac{1}{b - a}, & a \leq x \leq b \\
    0, & \text{otherwise}
    \end{cases}
    $$

  • 期望与方差

    $$
    \mathbb{E}[X] = \frac{a + b}{2}, \quad \mathrm{Var}(X) = \frac{(b - a)^2}{12}
    $$


12.2 指数分布(Exponential Distribution)

  • 定义:$X \sim \mathrm{Exp}(\lambda)$,其中 $\lambda > 0$

  • 概率密度函数

    $$
    f(x) = \begin{cases}
    \lambda e^{-\lambda x}, & x \geq 0 \\
    0, & x < 0
    \end{cases}
    $$

  • 期望与方差

    $$
    \mathbb{E}[X] = \frac{1}{\lambda}, \quad \mathrm{Var}(X) = \frac{1}{\lambda^2}
    $$

  • 记忆性:$\mathbb{P}(X > s + t \mid X > s) = \mathbb{P}(X > t)$


12.3 正态分布(Normal Distribution)

  • 定义:$X \sim \mathcal{N}(\mu, \sigma^2)$

  • 概率密度函数

    $$
    f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
    $$

  • 期望与方差

    $$
    \mathbb{E}[X] = \mu, \quad \mathrm{Var}(X) = \sigma^2
    $$

  • 标准正态分布:$Z \sim \mathcal{N}(0, 1)$


12.4 伽马分布(Gamma Distribution)

  • 定义:$X \sim \mathrm{Gamma}(\alpha, \lambda)$,其中 $\alpha > 0$ 是形状参数,$\lambda > 0$ 是率参数

  • 概率密度函数

    $$
    f(x) = \frac{\lambda^\alpha x^{\alpha - 1} e^{-\lambda x}}{\Gamma(\alpha)}, \quad x > 0
    $$

  • 期望与方差

    $$
    \mathbb{E}[X] = \frac{\alpha}{\lambda}, \quad \mathrm{Var}(X) = \frac{\alpha}{\lambda^2}
    $$

  • 特别情况

    • $\alpha = 1$ 时为指数分布
    • $\alpha = n$(正整数)时为 Erlang 分布

12.5 卡方分布(Chi-Square Distribution)

  • 定义:$\chi^2_k$ 是 $k$ 个独立标准正态变量平方和的分布

  • 概率密度函数

    $$
    f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad x > 0
    $$

  • 期望与方差

    $$
    \mathbb{E}[X] = k, \quad \mathrm{Var}(X) = 2k
    $$


12.6 t 分布(Student’s t Distribution)

  • 定义:$T = \frac{Z}{\sqrt{V/k}}$,其中 $Z \sim \mathcal{N}(0,1)$,$V \sim \chi^2_k$ 且独立

  • 期望与方差

    $$
    \mathbb{E}[T] = 0 \quad (k > 1), \quad \mathrm{Var}(T) = \frac{k}{k - 2} \quad (k > 2)
    $$


12.7 F 分布(Fisher Distribution)

  • 定义:$F = \frac{(U_1/d_1)}{(U_2/d_2)}$,其中 $U_1 \sim \chi^2_{d_1}$,$U_2 \sim \chi^2_{d_2}$

  • 期望($d_2 > 2$):

    $$
    \mathbb{E}[F] = \frac{d_2}{d_2 - 2}
    $$

13. 常见离散型概率分布(含重要性质)

13.1. 伯努利分布(Bernoulli Distribution)

定义:表示一次只有“成功”(1)或“失败”(0)两种结果的随机试验。

参数:$p \in [0, 1]$(成功的概率)

概率质量函数(PMF)

$$
P(X = x) = p^x (1 - p)^{1 - x}, \quad x \in {0, 1}
$$

期望

$$
\mathbb{E}[X] = p
$$

方差

$$
\mathrm{Var}(X) = p(1 - p)
$$

性质

  • 伯努利分布是二项分布 $B(n, p)$ 在 $n=1$ 情况下的特例。

13.2. 二项分布(Binomial Distribution)

定义:$n$ 次独立的伯努利试验中成功的次数。

参数:$n \in \mathbb{N}$,$p \in [0, 1]$

概率质量函数

$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k = 0, 1, \dots, n
$$

期望

$$
\mathbb{E}[X] = np
$$

方差

$$
\mathrm{Var}(X) = np(1 - p)
$$

性质

  • 当 $n \to \infty$, $p \to 0$ 且 $np = \lambda$ 保持常数时,二项分布趋近于泊松分布 $P(\lambda)$。

13.3. 几何分布(Geometric Distribution)

定义:第一次成功出现前失败的次数。

参数:$p \in (0, 1]$

概率质量函数(失败次数版)

$$
P(X = k) = (1 - p)^k p, \quad k = 0, 1, 2, \dots
$$

期望

$$
\mathbb{E}[X] = \frac{1 - p}{p}
$$

方差

$$
\mathrm{Var}(X) = \frac{1 - p}{p^2}
$$

性质

  • 几何分布具有 无记忆性(memoryless)

    $$
    P(X > m + n \mid X > m) = P(X > n)
    $$


13.4. 负二项分布(Negative Binomial Distribution)

定义:第 $r$ 次成功出现前的失败次数。

参数:$r \in \mathbb{N}$,$p \in (0, 1)$

概率质量函数

$$
P(X = k) = \binom{k + r - 1}{k} (1 - p)^k p^r, \quad k = 0, 1, 2, \dots
$$

期望

$$
\mathbb{E}[X] = \frac{r(1 - p)}{p}
$$

方差

$$
\mathrm{Var}(X) = \frac{r(1 - p)}{p^2}
$$

性质

  • 负二项分布是几何分布的推广,几何分布是 $r = 1$ 的特例。

13.5. 超几何分布(Hypergeometric Distribution)

定义:从 $N$ 个物品中抽取 $n$ 个,其中 $K$ 个为成功,$X$ 表示抽到成功的个数。

参数:$N$(总体大小),$K$(成功元素个数),$n$(抽样数)

概率质量函数

$$
P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}, \quad \max(0, n - N + K) \leq k \leq \min(n, K)
$$

期望

$$
\mathbb{E}[X] = n \cdot \frac{K}{N}
$$

方差

$$
\mathrm{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1}
$$

性质

  • 超几何分布是 无放回抽样 下的模型;当 $N \to \infty$ 且 $K/N \to p$ 时,趋近于二项分布 $B(n, p)$。

13.6. 泊松分布(Poisson Distribution)

定义:单位时间内某事件发生的次数,适用于稀疏事件。

参数:$\lambda > 0$(单位时间内平均发生次数)

概率质量函数

$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots
$$

期望

$$
\mathbb{E}[X] = \lambda
$$

方差

$$
\mathrm{Var}(X) = \lambda
$$

性质

  • 泊松分布的多个独立随机变量之和仍服从泊松分布:

    $$
    X_1 \sim P(\lambda_1), \quad X_2 \sim P(\lambda_2) \Rightarrow X_1 + X_2 \sim P(\lambda_1 + \lambda_2)
    $$


13.7. 离散均匀分布(Discrete Uniform Distribution)

定义:在 $a, a+1, \dots, b$ 之间均匀分布的整数。

参数:$a, b \in \mathbb{Z}$ 且 $a \leq b$

概率质量函数

$$
P(X = k) = \frac{1}{b - a + 1}, \quad k = a, a+1, \dots, b
$$

期望

$$
\mathbb{E}[X] = \frac{a + b}{2}
$$

方差

$$
\mathrm{Var}(X) = \frac{(b - a + 1)^2 - 1}{12}
$$

性质

  • 离散均匀分布具有最大熵(信息量)属性:在已知最小值与最大值的条件下,它是熵最大的分布。

14. 常见连续型概率分布

连续型分布的随机变量可以取无限多个值,它的概率是通过概率密度函数(PDF)定义的。

常见的连续型分布包括:

14.1. 均匀分布(Uniform Distribution)

  • 定义域:$x \in [a, b]$

  • 概率密度函数

    $$
    f(x) = \begin{cases}
    \dfrac{1}{b - a}, & a \le x \le b \\
    0, & \text{otherwise}
    \end{cases}
    $$

  • 期望

    $$
    \mathbb{E}[X] = \dfrac{a + b}{2}
    $$

  • 方差

    $$
    \mathrm{Var}(X) = \dfrac{(b - a)^2}{12}
    $$

  • 性质补充:所有区间等可能,呈现“完全不偏”状态。


14.2. 正态分布(Normal Distribution)

  • 定义域:$x \in (-\infty, +\infty)$

  • 概率密度函数

    $$
    f(x) = \dfrac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\dfrac{(x - \mu)^2}{2\sigma^2} \right)
    $$

  • 期望

    $$
    \mathbb{E}[X] = \mu
    $$

  • 方差

    $$
    \mathrm{Var}(X) = \sigma^2
    $$

  • 性质补充:具有对称性;中心极限定理的核心;标准正态分布是 $\mu = 0,\ \sigma^2 = 1$。

🧠 正态分布的独立可加性性质(Additivity)

✅ 性质描述:

如果 $X_1, X_2, \dots, X_n$ 是 相互独立 且都服从正态分布的随机变量,即:

$$
X_i \sim \mathcal{N}(\mu_i, \sigma_i^2),\quad i = 1, 2, \dots, n
$$

那么它们的加和

$$
S_n = X_1 + X_2 + \dots + X_n
$$

也服从正态分布:

$$
S_n \sim \mathcal{N}(\mu_1 + \mu_2 + \dots + \mu_n,\ \sigma_1^2 + \sigma_2^2 + \dots + \sigma_n^2)
$$

换句话说:

正态分布的独立线性组合仍然服从正态分布

📌 举个例子:

假设:

  • $X_1 \sim \mathcal{N}(3, 4)$
  • $X_2 \sim \mathcal{N}(1, 9)$
  • 且 $X_1$ 和 $X_2$ 相互独立

那么:

$$
X_1 + X_2 \sim \mathcal{N}(3 + 1,\ 4 + 9) = \mathcal{N}(4,\ 13)
$$

📌 更一般地说:

对任意实数常数 $a, b$,如果 $X \sim \mathcal{N}(\mu_X, \sigma_X^2)$,$Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ 且 $X, Y$ 独立,

那么线性组合 $Z = aX + bY$ 也服从正态分布:

$$
Z \sim \mathcal{N}(a\mu_X + b\mu_Y,\ a^2\sigma_X^2 + b^2\sigma_Y^2)
$$

❗ 注意事项:

  • 独立性是必要条件。如果 $X_i$ 之间有相关性,加和不一定服从正态分布。
  • 即使是不同参数的正态分布,加和仍然是正态的,只要它们是独立的。

📖 为什么重要?

  1. 正态分布封闭性:这是正态分布的“封闭性”之一(加法下封闭),其他常见分布(如指数、卡方)都不具有这个性质
  2. 中心极限定理基础:虽然中心极限定理适用于很多分布,但在正态分布的情形下,加和就精确地是正态分布,而不是近似。
  3. 在统计中的广泛应用:例如,样本均值、误差项建模、线性回归等,都是利用这个性质。

14.3. 指数分布(Exponential Distribution)

  • 定义域:$x \in [0, +\infty)$

  • 概率密度函数

    $$
    f(x) = \lambda e^{-\lambda x},\quad \lambda > 0
    $$

  • 期望

    $$
    \mathbb{E}[X] = \dfrac{1}{\lambda}
    $$

  • 方差

    $$
    \mathrm{Var}(X) = \dfrac{1}{\lambda^2}
    $$

  • 性质补充:具有无记忆性:$P(X > s + t \mid X > s) = P(X > t)$


14.4. 伽马分布(Gamma Distribution)

  • 定义域:$x \in [0, +\infty)$

  • 概率密度函数(形状参数 $k$,率参数 $\lambda$):

    $$
    f(x) = \dfrac{\lambda^k}{\Gamma(k)} x^{k-1} e^{-\lambda x},\quad x > 0
    $$

  • 期望

    $$
    \mathbb{E}[X] = \dfrac{k}{\lambda}
    $$

  • 方差

    $$
    \mathrm{Var}(X) = \dfrac{k}{\lambda^2}
    $$

  • 性质补充:$k = 1$ 时退化为指数分布。


14.5. 卡方分布(Chi-Square Distribution)

  • 定义域:$x \in [0, +\infty)$

  • 参数:自由度 $k$

  • 概率密度函数

    $$
    f(x) = \dfrac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}
    $$

  • 期望

    $$
    \mathbb{E}[X] = k
    $$

  • 方差

    $$
    \mathrm{Var}(X) = 2k
    $$

  • 性质补充:是 $k$ 个标准正态分布平方和;用于假设检验中。


14.6. 贝塔分布(Beta Distribution)

  • 定义域:$x \in [0, 1]$

  • 参数:$\alpha, \beta > 0$

  • 概率密度函数

    $$
    f(x) = \dfrac{x^{\alpha - 1}(1 - x)^{\beta - 1}}{B(\alpha, \beta)}
    $$

    其中 $B(\alpha, \beta)$ 是贝塔函数:

    $$
    B(\alpha, \beta) = \dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}
    $$

  • 期望

    $$
    \mathbb{E}[X] = \dfrac{\alpha}{\alpha + \beta}
    $$

  • 方差

    $$
    \mathrm{Var}(X) = \dfrac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}
    $$

  • 性质补充:广泛用于贝叶斯推断中表示概率分布的先验。


14.7. 柯西分布(Cauchy Distribution)

  • 定义域:$x \in (-\infty, +\infty)$

  • 概率密度函数

    $$
    f(x) = \dfrac{1}{\pi} \cdot \dfrac{1}{1 + x^2}
    $$

  • 期望/方差:均不存在

  • 性质补充:尾部非常厚,不满足大数定律。


14.8. 对数正态分布(Log-Normal Distribution)

  • 定义域:$x \in (0, +\infty)$

  • 定义:若 $Y = \ln X \sim \mathcal{N}(\mu, \sigma^2)$,则 $X$ 服从对数正态分布。

  • 概率密度函数

    $$
    f(x) = \dfrac{1}{x\sigma\sqrt{2\pi}} \exp\left( -\dfrac{(\ln x - \mu)^2}{2\sigma^2} \right)
    $$

  • 期望

    $$
    \mathbb{E}[X] = e^{\mu + \frac{\sigma^2}{2}}
    $$

  • 方差

    $$
    \mathrm{Var}(X) = \left(e^{\sigma^2} - 1\right) e^{2\mu + \sigma^2}
    $$

  • 性质补充:常见于收入分布、股票价格建模等。

15. 多元随机变量及其分布

多元随机变量是由多个单一随机变量组成的向量,用于描述多个变量之间的联合行为。

15.1. 多元随机变量定义

设有 $n$ 个随机变量 $X_1, X_2, \dots, X_n$,我们定义一个多元随机变量(Random Vector)

$$
\mathbf{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix}
$$

若每个 $X_i$ 都是连续型随机变量,则称 $\mathbf{X}$ 是多元连续型随机变量

15.2. 联合分布函数(Joint Distribution Function)

✅ 定义:

设 $(X, Y)$ 是二维随机变量,其联合分布函数定义为:

$$
F(x, y) = P(X \le x,\ Y \le y)
$$

对于更高维的 $(X_1, X_2, \dots, X_n)$:

$$
F(x_1, x_2, \dots, x_n) = P(X_1 \le x_1,\ X_2 \le x_2,\ \dots,\ X_n \le x_n)
$$


15.2.1. 联合分布函数的基本性质(二维情况)

设 $F(x, y) = P(X \le x,\ Y \le y)$,则它满足以下性质:

  1. 单调性(Monotonicity)

    $$
    x_1 \le x_2,\ y_1 \le y_2 \Rightarrow F(x_1, y_1) \le F(x_2, y_2)
    $$

  2. 有界性(Boundedness)

    $$
    0 \le F(x, y) \le 1
    $$

  3. 右连续性(Right Continuity)

    $$
    \lim_{h \to 0^+,\ k \to 0^+} F(x + h,\ y + k) = F(x, y)
    $$

  4. 极限性质(Limits at Infinity)

    • $F(+\infty,\ +\infty) = 1$
    • $F(-\infty,\ y) = F(x,\ -\infty) = 0$
    • $F(+\infty,\ y) = P(Y \le y)$,即为 $Y$ 的边缘分布函数
  5. 概率计算(由 CDF 得出某区域概率)

    $$
    P(a < X \le b,\ c < Y \le d) = F(b, d) - F(a, d) - F(b, c) + F(a, c)
    $$


15.2.2. 联合分布函数的非负性(在密度函数意义下)

若 $X, Y$ 连续,存在联合密度函数 $f(x, y)$,则:

  • $f(x, y) \ge 0$

  • 联合分布函数由密度函数积分给出:

    $$
    F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(s, t), dt, ds
    $$


15.3 联合分布列(Joint Probability Mass Function, Joint PMF)

当 $X, Y$ 为离散随机变量时,我们用联合分布列来描述它们的联合行为。

✅ 定义:

联合概率质量函数(Joint PMF)定义为:

$$
p(x_i, y_j) = P(X = x_i,\ Y = y_j)
$$

所有可能的取值 $(x_i, y_j)$ 组成一个二维表格或函数,满足:

  1. 非负性

    $$
    p(x_i, y_j) \ge 0
    $$

  2. 归一性

    $$
    \sum_i \sum_j p(x_i, y_j) = 1
    $$

📌 相关概念:

  • 边缘分布

    $$
    p_X(x_i) = \sum_j p(x_i, y_j),\quad p_Y(y_j) = \sum_i p(x_i, y_j)
    $$

  • 条件分布

    $$
    P(X = x_i \mid Y = y_j) = \frac{p(x_i, y_j)}{p_Y(y_j)},\quad \text{若 } p_Y(y_j) > 0
    $$

  • 独立性

    若对所有 $(x_i, y_j)$ 都满足:

    $$
    p(x_i, y_j) = p_X(x_i) \cdot p_Y(y_j)
    $$

    则 $X$ 与 $Y$ 相互独立。

✅ 示例:联合分布列表格(X, Y 为离散)

$Y \backslash X$ $x_1$ $x_2$ $x_3$
$y_1$ 0.1 0.2 0.1
$y_2$ 0.1 0.3 0.2
  • 检查归一性:$0.1 + 0.2 + 0.1 + 0.1 + 0.3 + 0.2 = 1$

  • 边缘分布:

    • $p_X(x_1) = 0.1 + 0.1 = 0.2$
    • $p_Y(y_1) = 0.1 + 0.2 + 0.1 = 0.4$

15.4. 边缘分布(Marginal Distribution)

设 $(X, Y)$ 是二维连续型随机变量,联合密度为 $f_{X,Y}(x, y)$,则:

  • $X$ 的边缘密度:

    $$
    f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y), dy
    $$

  • $Y$ 的边缘密度:

    $$
    f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y), dx
    $$


15.5. 条件分布(Conditional Distribution)

条件密度函数:

二维情形下,$X$ 在给定 $Y = y$ 条件下的密度函数为:

$$
f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}
$$

前提是 $f_Y(y) > 0$。


15.6. 独立性

如果:

$$
f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)
$$

则 $X$ 和 $Y$ 相互独立

更一般地,$X_1, \dots, X_n$ 彼此独立,当且仅当:

$$
f_{X_1, \dots, X_n}(x_1, \dots, x_n) = \prod_{i=1}^n f_{X_i}(x_i)
$$


15.7. 协方差与相关系数(Covariance and Correlation)

  • 协方差

    对 $(X, Y)$:

    $$
    \mathrm{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = \mathbb{E}[XY] - \mathbb{E}[X] \mathbb{E}[Y]
    $$

  • 相关系数

    $$
    \rho_{X,Y} = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}
    $$

    $\rho$ 范围为 $[-1, 1]$,$\rho = 0$ 不代表独立。


15.8. 协方差矩阵(Covariance Matrix)

若 $\mathbf{X} = [X_1, X_2, \dots, X_n]^\top$,定义其协方差矩阵为:

$$
\Sigma = \mathrm{Cov}(\mathbf{X}) = \mathbb{E}[(\mathbf{X} - \mu)(\mathbf{X} - \mu)^\top]
$$

其元素为:

$$
\Sigma_{ij} = \mathrm{Cov}(X_i, X_j)
$$


15.9. 多元正态分布(Multivariate Normal Distribution)

定义:

随机向量 $\mathbf{X} \in \mathbb{R}^n$ 服从多元正态分布,记作:

$$
\mathbf{X} \sim \mathcal{N}(\mu, \Sigma)
$$

其中:

  • $\mu$ 是均值向量
  • $\Sigma$ 是协方差矩阵(对称正定)

密度函数:

$$
f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left( -\frac{1}{2}(\mathbf{x} - \mu)^\top \Sigma^{-1} (\mathbf{x} - \mu) \right)
$$

性质:

  • 多元正态分布的任意线性组合仍是正态分布
  • 边缘分布仍为正态
  • 条件分布仍为正态

16. 联合密度函数(Joint Probability Density Function)

16.1. 定义

设 $(X, Y)$ 是二维连续型随机变量,如果存在函数 $f(x, y)$ 满足:

$$
P((X, Y) \in A) = \iint_A f(x, y), dx, dy
$$

则称 $f(x, y)$ 是 $(X, Y)$ 的 联合概率密度函数(joint PDF)


16.2. 条件(必须满足)

  • $f(x, y) \ge 0$
  • $\iint_{\mathbb{R}^2} f(x, y), dx, dy = 1$

16.3. 与联合分布函数的关系

若 $F(x, y)$ 是 $(X, Y)$ 的联合分布函数,则:

$$
f(x, y) = \frac{\partial^2 F(x, y)}{\partial x , \partial y}
$$

反过来,联合分布函数也可以通过密度函数积分得出:

$$
F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(s, t), dt, ds
$$


16.4. 联合密度函数的重要性质与推导

性质 1:非负性(Non-negativity)

$$
f(x, y) \ge 0,\quad \forall (x, y)
$$

解释:这是概率的基本性质,密度函数不能为负值。


性质 2:归一性(Normalization)

$$
\iint_{\mathbb{R}^2} f(x, y), dx, dy = 1
$$

推导说明

这是联合随机变量在整个二维平面上的总概率,必须为 1。


性质 3:边缘密度(Marginal Density)

通过积分“消去”一个变量来获得边缘密度函数:

  • $X$ 的边缘密度函数:

    $$
    f_X(x) = \int_{-\infty}^{+\infty} f(x, y), dy
    $$

  • $Y$ 的边缘密度函数:

    $$
    f_Y(y) = \int_{-\infty}^{+\infty} f(x, y), dx
    $$

推导说明

$$
f_X(x) = \frac{d}{dx} P(X \le x) = \frac{d}{dx} \left( \int_{-\infty}^x \int_{-\infty}^{\infty} f(s, t), dt, ds \right)
= \int_{-\infty}^{\infty} f(x, y), dy
$$


性质 4:概率计算公式

对于任意矩形区域:

$$
P(a < X \le b,\ c < Y \le d) = \int_a^b \int_c^d f(x, y), dy, dx
$$


性质 5:独立性的充要条件

随机变量 $X$ 和 $Y$ 独立 当且仅当

$$
f(x, y) = f_X(x) \cdot f_Y(y)
$$


性质 6:条件密度函数(Conditional Density)

  • 条件密度 $X \mid Y = y$:

    $$
    f_{X \mid Y}(x \mid y) = \frac{f(x, y)}{f_Y(y)},\quad f_Y(y) > 0
    $$

  • 条件密度 $Y \mid X = x$:

    $$
    f_{Y \mid X}(y \mid x) = \frac{f(x, y)}{f_X(x)},\quad f_X(x) > 0
    $$


16.5. 推导实例:边缘密度和条件密度

已知联合密度函数:

$$
f(x, y) = \begin{cases}
6xy, & 0 < x < 1,\ 0 < y < 1,\ x + y < 1 \\
0, & \text{otherwise}
\end{cases}
$$

步骤 1:验证是否为联合密度函数

我们要验证归一性:

$$
\iint_{D} f(x, y), dx, dy = \int_0^1 \int_0^{1 - x} 6xy, dy, dx
$$

先对 $y$ 积分:

$$
\int_0^{1 - x} 6xy, dy = 6x \cdot \int_0^{1 - x} y, dy = 6x \cdot \left[ \frac{y^2}{2} \right]_0^{1 - x}
= 6x \cdot \frac{(1 - x)^2}{2}
$$

再对 $x$ 积分:

$$
\int_0^1 3x(1 - x)^2, dx = 3 \int_0^1 x(1 - 2x + x^2), dx
= 3 \int_0^1 (x - 2x^2 + x^3), dx
= 3 \left[ \frac{x^2}{2} - \frac{2x^3}{3} + \frac{x^4}{4} \right]_0^1
$$

计算:

$$
3 \left( \frac{1}{2} - \frac{2}{3} + \frac{1}{4} \right) = 3 \cdot \left( \frac{6 - 8 + 3}{12} \right) = 3 \cdot \frac{1}{12} = \frac{1}{4}
$$

❌ 所以 不满足归一性,我们应将 $f(x, y)$ 调整为:

$$
f(x, y) = \frac{6xy}{1/4} = 24xy
$$

使得积分为 1。

17. 常见多维分布

17.1 基本概念

假设 $X = (X_1, X_2, \dots, X_n)$ 是一个n维随机向量,那么我们就可以研究其联合分布函数联合概率密度函数边缘分布条件分布等。

  • 联合分布函数(Joint CDF):

    $$
    F(x_1, \dots, x_n) = P(X_1 \le x_1, \dots, X_n \le x_n)
    $$

    满足单调性、有界性(在 $[0,1]$ 之间)、右连续性和非负性。

  • 联合密度函数(Joint PDF)如果存在,则:

    $$
    f(x_1, \dots, x_n) = \frac{\partial^n F(x_1, \dots, x_n)}{\partial x_1 \cdots \partial x_n}
    $$

  • 边缘密度(Marginal PDF)是通过积分其他变量得到的:

    $$
    f_{X_1}(x_1) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1, x_2, \dots, x_n) dx_2 \cdots dx_n
    $$

  • 条件密度

    $$
    f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)} \quad \text{(如果 $f_Y(y) > 0$)}
    $$


17.2 常见多维分布类型

多元离散分布(Multivariate Discrete Distribution)

  • 例子:二维伯努利分布多项分布(Multinomial)

多项分布

$X = (X_1, X_2, …, X_k) \sim \text{Multinomial}(n, p_1, p_2, …, p_k)$

含义:进行 $n$ 次独立实验,每次结果属于 $k$ 类中的某一类,第 $i$ 类的概率为 $p_i$。

概率质量函数(PMF):

$$
P(X_1 = x_1, …, X_k = x_k) = \frac{n!}{x_1!x_2!\cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}
$$

其中 $sum x_i = n$, $\sum p_i = 1$


多元正态分布(Multivariate Normal Distribution)

这是最常见、最重要的多维连续分布之一。

✅ 定义:

$X = (X_1, X_2, …, X_n)^\top \sim \mathcal{N}(\mu, \Sigma)$
其中 $\mu$ 是 $n$ 维均值向量,$\Sigma$ 是 $n \times n$ 协方差矩阵。

✅ 密度函数:

$$
f_X(x) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (x - \mu)^\top \Sigma^{-1} (x - \mu) \right)
$$

✅ 性质:

  • 每个 $X_i$ 都服从一维正态分布。
  • 任意线性组合 $\sum a_i X_i$ 仍服从正态分布。
  • 若 $\Sigma$ 是对角阵,则各维度独立。

多元均匀分布(Multivariate Uniform Distribution)

定义在某个多维矩形区域(或高维立方体)上的均匀分布。

例:二维均匀分布:

$$
f(x, y) =
\begin{cases}
\frac{1}{(b_1 - a_1)(b_2 - a_2)}, & a_1 \le x \le b_1,\ a_2 \le y \le b_2 \\
0, & \text{otherwise}
\end{cases}
$$


多元指数族分布(Exponential Family)

许多常见分布如正态、伯努利、伽马、泊松等都属于指数族,其多维扩展也可用于建模。


17.3 联合分布的一些重要性质

✅ 协方差矩阵:

$$
\Sigma = \text{Cov}(X) = \mathbb{E}[(X - \mu)(X - \mu)^\top]
$$

  • 对称且半正定。
  • $\Sigma_{ij} = \text{Cov}(X_i, X_j)$

✅ 相关系数矩阵:

$$
\rho_{ij} = \frac{\text{Cov}(X_i, X_j)}{\sqrt{\text{Var}(X_i)\text{Var}(X_j)}}
$$

✅ 若 $X_1, …, X_n$ 独立,则协方差矩阵为对角阵。

18. 卷积公式(Convolution Formula)

当两个相互独立的随机变量 $X$ 和 $Y$ 相加(即 $Z = X + Y$)时,我们想要知道 $Z$ 的概率分布。此时就需要使用卷积公式来计算 $Z$ 的分布。

卷积公式的形式取决于 $X$ 和 $Y$ 是离散型还是连续型变量。


18.1. 离散型卷积公式

如果 $X$ 和 $Y$ 是两个相互独立的离散型随机变量,则它们的和 $Z = X + Y$ 的概率质量函数(pmf)为:

$$
P(Z = z) = \sum_{k=-\infty}^{\infty} P(X = k) \cdot P(Y = z - k)
$$

这是离散卷积,相当于“滑动并叠加”的过程。

✅ 举例

假设 $X$ 和 $Y$ 都是取值为 $0, 1, 2$ 的变量,且:

  • $P(X=0)=P(X=1)=P(X=2)=\frac{1}{3}$
  • $P(Y=0)=P(Y=1)=P(Y=2)=\frac{1}{3}$

那么 $Z = X + Y$ 取值为 $0$ 到 $4$,比如:

$$
P(Z = 2) = P(X = 0)P(Y = 2) + P(X = 1)P(Y = 1) + P(X = 2)P(Y = 0) = \frac{1}{3} \cdot \frac{1}{3} + \frac{1}{3} \cdot \frac{1}{3} + \frac{1}{3} \cdot \frac{1}{3} = \frac{1}{3}
$$


18.2. 连续型卷积公式

如果 $X$ 和 $Y$ 是相互独立的连续型随机变量,具有概率密度函数(pdf) $f_X(x)$ 和 $f_Y(y)$,那么它们和 $Z = X + Y$ 的密度函数为:

$$
f_Z(z) = \int_{-\infty}^{\infty} f_X(x) \cdot f_Y(z - x) , dx
$$

这个积分称为连续型卷积

✅ 举例

如果 $X, Y \sim \text{Uniform}(0,1)$,即均匀分布,那么:

  • $f_X(x) = 1$ 当 $x \in [0,1]$
  • $f_Y(y) = 1$ 当 $y \in [0,1]$

那么 $Z = X + Y$ 的密度函数为:

$$
f_Z(z) = \begin{cases}
z, & 0 \le z \le 1 \\
2 - z, & 1 < z \le 2 \\
0, & \text{otherwise}
\end{cases}
$$

这是一个三角形分布(Triangular distribution)。

卷积公式的几何意义(直观解释)

  • 卷积可以看作是:把一个函数“翻转并滑动”另一个函数的过程。
  • 概率意义上就是:把 $X$ 取某值的概率与 $Y$ 取补值的概率相乘后加总。

卷积的性质

  • 交换律
  • 结合律
  • 若 $X$ 与 $Y$ 独立,且都服从正态分布,则 $X+Y$ 也服从正态分布。

19. 多维随机变量的特征数(Characteristics of Multivariate Random Variables)

在处理多个随机变量组成的向量时,我们需要用一组“特征数”来描述其统计特性。这些特征数不仅包括基本的期望、方差和协方差,还包括它们的矩阵表达形式与运算性质

19.1. 多维随机变量的定义

设 $\mathbf{X} = \begin{pmatrix} X_1 \ X_2 \ \vdots \ X_n \end{pmatrix}$ 是一个 $n$ 维随机向量。我们希望研究这个向量的分布特征,可以用如下几个“特征数”来描述它的整体性质。


19.2. 期望向量(Mean Vector)

定义:

$$
\mathbb{E}[\mathbf{X}] = \begin{pmatrix}
\mathbb{E}[X_1] \\
\mathbb{E}[X_2] \\
\vdots \\
\mathbb{E}[X_n]
\end{pmatrix}
$$

表示每个变量的平均值。

🔧 运算性质(线性性):

设 $\mathbf{a}$ 是 $n \times 1$ 的常数向量,$A$ 是任意矩阵(维度合理):

  • $\mathbb{E}[A \mathbf{X}] = A \mathbb{E}[\mathbf{X}]$
  • $\mathbb{E}[\mathbf{a}^T \mathbf{X}] = \mathbf{a}^T \mathbb{E}[\mathbf{X}]$

19.3. 方差(Variance)和协方差(Covariance)

▪️ 单个变量的方差:

$$
\operatorname{Var}(X_i) = \mathbb{E}[(X_i - \mathbb{E}[X_i])^2]
$$

衡量 $X_i$ 的波动程度。

▪️ 两个变量的协方差:

$$
\operatorname{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j])]
$$

说明 $X_i$ 和 $X_j$ 的线性关系。

  • $\operatorname{Cov}(X_i, X_j) > 0$:正相关
  • $\operatorname{Cov}(X_i, X_j) < 0$:负相关
  • $\operatorname{Cov}(X_i, X_j) = 0$:无线性相关

19.4. 协方差矩阵(Covariance Matrix)

所有变量间协方差构成一个矩阵:

$$
\Sigma = \operatorname{Cov}(\mathbf{X}) =
\begin{pmatrix}
\operatorname{Var}(X_1) & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_n) \\
\operatorname{Cov}(X_2, X_1) & \operatorname{Var}(X_2) & \cdots & \operatorname{Cov}(X_2, X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\operatorname{Cov}(X_n, X_1) & \operatorname{Cov}(X_n, X_2) & \cdots & \operatorname{Var}(X_n)
\end{pmatrix}
$$

📌 性质:

  • 对称性:$\Sigma^T = \Sigma$
  • 半正定性:对任意非零向量 $\mathbf{a}$,有 $\mathbf{a}^T \Sigma \mathbf{a} \ge 0$
  • 对角线:是各变量的方差
  • 非对角线:是对应变量间的协方差

19.5. 协方差矩阵的运算性质

设 $A$ 是 $m \times n$ 的常数矩阵,$\mathbf{X}$ 是 $n \times 1$ 的随机向量:

✅ 协方差的线性变换:

$$
\operatorname{Cov}(A\mathbf{X}) = A \operatorname{Cov}(\mathbf{X}) A^T
$$

✅ 协方差的线性组合:

对任意常数向量 $\mathbf{a}, \mathbf{b}$,有:

$$
\operatorname{Cov}(\mathbf{a}^T \mathbf{X}, \mathbf{b}^T \mathbf{X}) = \mathbf{a}^T \Sigma \mathbf{b}
$$


19.6. 相关系数矩阵(Correlation Matrix)

将协方差矩阵标准化得到相关系数矩阵 $R$:

$$
\rho_{ij} = \frac{\operatorname{Cov}(X_i, X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}}
$$

$$
R = \begin{pmatrix}
1 & \rho_{12} & \cdots & \rho_{1n} \\
\rho_{21} & 1 & \cdots & \rho_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\rho_{n1} & \rho_{n2} & \cdots & 1
\end{pmatrix}
$$

📌 性质:

  • 所有 $\rho_{ij} \in [-1, 1]$
  • $\rho_{ij} = 1$ 或 $-1$ 表示完全线性相关
  • $\rho_{ij} = 0$ 表示无线性相关(不等价于独立)

20. 期望、方差、协方差运算总结(Computation Rules for Expectation, Variance, and Covariance)

20.1. 期望(Expectation)

📌 基本定义:

对于随机变量 $X$,其期望为:

  • 离散型:$\mathbb{E}[X] = \sum_x x \cdot P(X = x)$
  • 连续型:$\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f_X(x), dx$

🛠 常见运算性质:

性质名称 公式 说明
线性性 $\mathbb{E}[aX + b] = a \mathbb{E}[X] + b$ 常数可以提出来
可加性 $\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$ 即使 $X,Y$ 不独立也成立
对常数求期望 $\mathbb{E}[c] = c$ 常数的期望就是它本身
期望对函数的作用 $\mathbb{E}[g(X)] \ne g(\mathbb{E}[X])$ 一般不成立 除非 $g$ 是线性函数
条件期望线性性 $\mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z]$

20.2. 方差(Variance)

📌 基本定义:

$$
\operatorname{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2
$$

🛠 常见运算性质:

性质名称 公式 说明
对常数无变化 $\operatorname{Var}(c) = 0$ 常数无波动
常数倍缩放 $\operatorname{Var}(aX) = a^2 \operatorname{Var}(X)$ 放缩成平方倍
平移不变性 $\operatorname{Var}(X + c) = \operatorname{Var}(X)$ 加常数不影响波动
可加性(独立) 若 $X \perp Y$,则 $\operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$ 仅在独立时成立
推广到线性组合 若 $X_1, \dots, X_n$ 独立:$\operatorname{Var}\left(\sum a_i X_i\right) = \sum a_i^2 \operatorname{Var}(X_i)$

20.3. 协方差(Covariance)

📌 基本定义:

$$
\operatorname{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]
$$

🛠 常见运算性质:

性质名称 公式 说明
对称性 $\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)$
自身协方差 $\operatorname{Cov}(X, X) = \operatorname{Var}(X)$
与常数协方差 $\operatorname{Cov}(X, c) = 0$ 常数与变量无协变性
线性组合 $\operatorname{Cov}(aX + b, cY + d) = ac, \operatorname{Cov}(X, Y)$ 双线性关系
可加性 $\operatorname{Cov}(X + Z, Y) = \operatorname{Cov}(X, Y) + \operatorname{Cov}(Z, Y)$
零协方差不等价于独立 $\operatorname{Cov}(X, Y) = 0 \not\Rightarrow X \perp Y$

20.4. 相关系数(Correlation Coefficient)

$$
\rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \cdot \sqrt{\operatorname{Var}(Y)}}
$$

  • $\rho_{XY} \in [-1, 1]$
  • $\rho_{XY} = 0$:无线性相关(但不代表独立)
  • $\rho_{XY} = \pm 1$:完全线性相关

20.5. 向量/矩阵形式下的运算

设 $\mathbf{X}$ 是 $n$ 维随机向量,$A$ 是 $m \times n$ 的常数矩阵:

✅ 期望运算(向量线性性):

$$
\mathbb{E}[A\mathbf{X}] = A \mathbb{E}[\mathbf{X}]
$$

✅ 协方差矩阵定义:

$$
\operatorname{Cov}(\mathbf{X}) = \Sigma = \mathbb{E}[(\mathbf{X} - \mathbb{E}[\mathbf{X}])(\mathbf{X} - \mathbb{E}[\mathbf{X}])^T]
$$

✅ 协方差的线性变换:

$$
\operatorname{Cov}(A \mathbf{X}) = A \Sigma A^T
$$

✅ 两个线性组合的协方差:

设 $\mathbf{a}, \mathbf{b}$ 为列向量,则:

$$
\operatorname{Cov}(\mathbf{a}^T \mathbf{X}, \mathbf{b}^T \mathbf{X}) = \mathbf{a}^T \Sigma \mathbf{b}
$$

类别 运算 公式 说明
期望 线性性 $\mathbb{E}[aX + bY] = a\mathbb{E}[X] + b\mathbb{E}[Y]$ 不要求独立
方差 放缩 $\operatorname{Var}(aX) = a^2 \operatorname{Var}(X)$
方差 可加性 $\operatorname{Var}(X + Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)$(独立) 非独立要加协方差项
协方差 线性组合 $\operatorname{Cov}(aX + b, cY + d) = ac, \operatorname{Cov}(X, Y)$
协方差 可加性 $\operatorname{Cov}(X+Z, Y) = \operatorname{Cov}(X, Y) + \operatorname{Cov}(Z, Y)$
向量期望 线性性 $\mathbb{E}[A \mathbf{X}] = A \mathbb{E}[\mathbf{X}]$
向量协方差 变换 $\operatorname{Cov}(A\mathbf{X}) = A \Sigma A^T$
协方差矩阵 定义 $\Sigma = \mathbb{E}[(\mathbf{X} - \mu)(\mathbf{X} - \mu)^T]$

21. 独立性与相关性的概念及关系

独立性(Independence)

两个随机变量 $X$ 和 $Y$ 独立,指的是它们的取值之间毫无关系,一个变量的发生不影响另一个的分布。

定义
$X$ 和 $Y$ 独立 $\iff$ 对任意 $x, y$,有:

  • 离散型:$P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$
  • 连续型:$f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y)$

简记为:联合分布 = 边缘分布的乘积


相关性(Correlation)

两个随机变量 $X$ 和 $Y$ 相关,指的是它们之间具有某种线性关系

最常用的相关性度量是协方差与相关系数:

  • 协方差:

    $$
    \operatorname{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]
    $$

  • 相关系数:

    $$
    \rho_{XY} = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \cdot \sqrt{\operatorname{Var}(Y)}}
    $$

$\rho_{XY}$ 值 含义
$\rho = 1$ 完全正相关(线性同方向)
$\rho = -1$ 完全负相关(线性反方向)
$\rho = 0$ 无线性相关

独立性 vs 相关性:异同对比

项目 独立性 相关性
是否是线性关系 更强(任意关系都没有) 只描述线性关系
判断方式 联合分布 = 边缘分布乘积 协方差或相关系数是否为零
数学量度 $P(X, Y) = P(X)P(Y)$ $\operatorname{Cov}(X, Y)$,$\rho_{XY}$
独立 $\Rightarrow$ 无相关? ✅ 是的,独立 ⟹ $\rho_{XY} = 0$
无相关 $\Rightarrow$ 独立? ❌ 不一定!仅说明无线性关系
举例说明 掷硬币两次 $X = U$, $Y = U^2$,$U \sim \text{均匀}[-1,1]$,$\rho = 0$但非独立

独立 & 无相关的例子

两个独立的骰子 $X$ 和 $Y$:

  • $P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$
  • $\operatorname{Cov}(X, Y) = 0$

独立 ⟹ 无相关


无相关但不独立的例子

令 $U \sim \text{Uniform}[-1, 1]$,定义:

  • $X = U$
  • $Y = U^2$

则:

  • $\operatorname{Cov}(X, Y) = 0$(计算可证)
  • 但 $X$ 和 $Y$ 不独立($Y$ 完全由 $X$ 决定)

说明:无线性相关不等于独立!

📌 独立一定不相关,但不相关不代表独立。

可以记作:

独立 ⇒ 不相关,但 不相关 ⇏ 独立。


✅ 多个随机变量独立:

若 $X_1, X_2, \dots, X_n$ 相互独立,则:

  • 联合密度/概率:$f(x_1, \dots, x_n) = f_{X_1}(x_1) \cdots f_{X_n}(x_n)$
  • 对于任意线性组合,协方差为 0

✅ 两两无关 ≠ 相互独立:

  • 两两无关:$\operatorname{Cov}(X_i, X_j) = 0$($i \ne j$)
  • 相互独立:更强,所有子集联合分布可以拆分为乘积

如何判断独立?

实际问题中判断是否独立,有以下策略:

  1. 看是否是不同来源的随机机制(如两个硬币投掷)

  2. 检查是否满足 $P(X,Y) = P(X)P(Y)$(离散)

  3. 检查 $f_{X,Y}(x,y) = f_X(x)f_Y(y)$(连续)

  4. 若已知是高斯分布,则:

    • 高斯变量中 $\operatorname{Cov}(X, Y) = 0$ ⟹ $X, Y$ 独立

22. 条件数学期望(Conditional Expectation)

条件期望表示:在知道某些信息(如另一个随机变量的值)的前提下,对一个随机变量的“平均”结果的估计。


22.1 离散型定义

若 $X, Y$ 是离散型随机变量,$P(Y = y) > 0$,则:

$$
\mathbb{E}[X \mid Y = y] = \sum_{x} x \cdot P(X = x \mid Y = y)
$$


22.2 连续型定义

若 $X, Y$ 是连续型随机变量,且 $f_Y(y) > 0$,则:

$$
\mathbb{E}[X \mid Y = y] = \int_{-\infty}^{\infty} x \cdot f_{X|Y}(x \mid y), dx
$$

其中:

$$
f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}
$$


✅ 条件期望是一个函数!

  • $\mathbb{E}[X \mid Y]$ 本质上是关于 $Y$ 的函数
  • 表示:每个不同的 $Y = y$,我们都有一个对应的 $\mathbb{E}[X \mid Y = y]$
  • 所以 $\mathbb{E}[X \mid Y]$ 是一个随机变量!

条件期望的几何意义(理解辅助)

条件期望可以被理解为对 $X$ 在已知 $Y$ 情况下的“最佳线性估计”。

  • 类似于投影操作($L^2$ 空间中的正交投影)
  • $\mathbb{E}[X \mid Y]$ 是在知道 $Y$ 情况下对 $X$ 的最优“预测”或“估计”

条件期望的性质总结(重点记忆)

性质名称 表达式 说明
线性性 $\mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z]$
全期望公式(迭代法则) $\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]$ 又称塔式法则
常量可提 若 $a$ 是常数,则 $\mathbb{E}[aX \mid Y] = a \mathbb{E}[X \mid Y]$
给定变量函数 若 $g(Y)$ 是 $Y$ 的函数,则 $\mathbb{E}[g(Y) \mid Y] = g(Y)$
条件期望是最佳估计 $\mathbb{E}[X \mid Y]$ 是 $X$ 的最小均方误差估计(MMSE)

22.3 条件期望的特例与拓展

📌 情况一:给定事件的条件期望

$$
\mathbb{E}[X \mid A] = \frac{\mathbb{E}[X \cdot \mathbf{1}_A]}{P(A)}
$$

📌 情况二:$X, Y$ 独立

如果 $X \perp Y$,则:

$$
\mathbb{E}[X \mid Y] = \mathbb{E}[X]
$$

即:知道 $Y$ 并不能提升对 $X$ 的预测能力。


22.4. 典型例题

【例1】设 $(X, Y)$ 的联合密度为:

$$
f(x, y) =
\begin{cases}
2, & 0 < x < y < 1 \\
0, & \text{否则}
\end{cases}
$$

求 $\mathbb{E}[X \mid Y = y]$

解:

  1. 找条件密度 $f_{X|Y}(x|y)$:
  • 边缘密度 $f_Y(y) = \int_0^y 2, dx = 2y$

  • 条件密度:

    $$
    f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} = \frac{2}{2y} = \frac{1}{y}, \quad 0 < x < y
    $$

  1. 计算条件期望:

$$
\mathbb{E}[X \mid Y = y] = \int_0^y x \cdot \frac{1}{y}, dx = \frac{1}{y} \cdot \frac{y^2}{2} = \frac{y}{2}
$$


总结

📌 塔式法则要记牢:

$\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]$

📌 独立变量条件期望恒等于原期望

$X \perp Y \Rightarrow \mathbb{E}[X \mid Y] = \mathbb{E}[X]$

📌 $\mathbb{E}[g(Y) \mid Y] = g(Y)$(即已知 $Y$ 后,其函数就是已知量)

23. 切比雪夫不等式(Chebyshev’s Inequality)

对于任意具有有限期望和方差的随机变量 $X$,对任意正数 $b > 0$,都有:

$$
\boxed{
P\left(|X - \mathbb{E}(X)| \geq b\right) \leq \frac{\operatorname{Var}(X)}{b^2}
}
$$

  • 其中 $\mathbb{E}(X)$ 是 $X$ 的数学期望
  • $\operatorname{Var}(X)$ 是 $X$ 的方差

一个随机变量偏离其均值超过任意正数 $b$ 的概率,有一个明确的上界 $\frac{\operatorname{Var}(X)}{b^2}$,只依赖于方差。

适用于任意分布类型(只要方差存在)


23.1 推导思路(基于马尔可夫不等式)

  • 设 $Y = (X - \mathbb{E}(X))^2 \geq 0$

  • 应用马尔可夫不等式:

    $$
    P(Y \geq b^2) \leq \frac{\mathbb{E}(Y)}{b^2}
    $$

    即:

    $$
    P(|X - \mathbb{E}(X)| \geq b) \leq \frac{\operatorname{Var}(X)}{b^2}
    $$


23.2 常见数值实例

  • 令 $b = 2\sigma$,则:

    $$
    P(|X - \mathbb{E}(X)| \geq 2\sigma) \leq \frac{1}{4}
    $$

  • 令 $b = 3\sigma$,则:

    $$
    P(|X - \mathbb{E}(X)| \geq 3\sigma) \leq \frac{1}{9}
    $$


常见变形

  • 写成下界形式:

    $$
    P\left(|X - \mathbb{E}(X)| < b\right) \geq 1 - \frac{\operatorname{Var}(X)}{b^2}
    $$

23.3. 示例题

例题:设某随机变量 $X$ 满足 $\mathbb{E}(X) = 100$, $\operatorname{Var}(X) = 25$。问:

至少有多少概率使 $X$ 落在区间 $[90, 110]$ 中?

✅ 解:

我们令 $b = 10$,则:

$$
P(|X - 100| \geq 10) \leq \frac{25}{100} = 0.25
$$

所以:

$$
P(|X - 100| < 10) \geq 1 - 0.25 = 0.75
$$

✅ 答:至少有 75% 的概率 落在 $[90, 110]$ 之间。


  • 切比雪夫不等式在形式上非常简洁:

    $$
    \boxed{
    P\left(|X - \mathbb{E}(X)| \geq b\right) \leq \frac{\operatorname{Var}(X)}{b^2}
    }
    $$

  • 它对随机变量的分布几乎没有要求,只要求方差存在。

  • 是实际应用与理论推导中的基础工具之一。

24. 大数定律

24.1. 依概率收敛(Convergence in Probability)

📌 定义:

设随机变量列 ${X_n}$,若存在常数 $X$,使得对任意 $\varepsilon > 0$:

$$
\lim_{n \to \infty} P(|X_n - X| > \varepsilon) = 0
$$

则称 $X_n$ 依概率收敛于 $X$,记作:

$$
X_n \xrightarrow{P} X
$$

在弱大数定律中,样本均值 $\overline{X}_n$ 通常 依概率收敛于 $\mathbb{E}[X]$,即:

$$
\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \mathbb{E}[X]
$$


24.2. 伯努利大数定律(Bernoulli’s Law of Large Numbers)

设 ${X_i}$ 为一列独立、同分布的0-1随机变量,例如重复抛硬币:

  • $P(X_i = 1) = p$,$P(X_i = 0) = 1 - p$

定理陈述:

$$
\overline{X}_n \xrightarrow{P} p
$$

也就是说:

当重复试验次数 $n \to \infty$,事件发生的频率趋近于它的概率 $p$。

这是最早形式的大数定律,由雅可布·伯努利提出,是现代频率派概率理论的基础。

📘 举例:

抛硬币,$P(正面) = 0.5$,则长期来看,正面频率趋近于 $0.5$。


24.3. 切比雪夫大数定律(Chebyshev’s Law of Large Numbers)

📌 条件更宽松的弱大数定律形式:

设 $X_1, X_2, \dots, X_n$ 为两两独立、具有相同数学期望 $\mu$ 和相同有限方差 $\sigma^2$的随机变量,定义样本均值为:

$$
\frac{1}{n} \sum_{i=1}^n X_i
$$

则有:

$$
\overline{X}_n \xrightarrow{P} \mu
$$

✅ 推导基于切比雪夫不等式:

$$
P\left( |\overline{X}_n - \mu| \geq \varepsilon \right) \leq \frac{\operatorname{Var}(\overline{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n \varepsilon^2}
\to 0 \quad \text{当 } n \to \infty
$$

✅ 特点:

  • 不要求严格独立同分布,只要“相同期望+有限方差+两两独立”
  • 弱大数定律的常见应用形式之一
  • 推导简单,考试常用

24.4. 马尔可夫大数定律(Markov’s Law of Large Numbers)

设 ${X_i}$ 是一列两两独立、具有相同上界的数学期望且满足:

  • $\sup \mathbb{E}[|X_i|] < \infty$
  • $\displaystyle \lim_{n \to \infty} \frac{1}{n^2} \sum_{i=1}^n \operatorname{Var}(X_i) = 0$

则有:

$$
\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \mu
$$

✅ 理解方式:

  • 更适合非等方差的情形
  • 允许 $X_i$ 的方差不相等,但要求整体方差“增长不能太快”
  • 是一种比切比雪夫定律更一般化的弱大数定律

🟦 总结对比

定律 收敛形式 要求 使用场景
依概率收敛 $\xrightarrow{P}$ 定义型,不是定律 描述随机变量序列收敛趋势
伯努利定律 $\xrightarrow{P} p$ 0-1变量 + 独立同分布 重复试验/频率估计
切比雪夫定律 $\xrightarrow{P} \mu$ 相同期望 + 有限方差 + 两两独立 同分布或近似同分布情形
马尔可夫定律 $\xrightarrow{P} \mu$ 弱相似性 + 方差不增长过快 更一般的样本序列

25. 中心极限定理(Central Limit Theorem, CLT)

中心极限定理是概率论中极为重要的结论,它说明了大量独立随机变量之和的分布趋向于正态分布,即使这些随机变量本身不服从正态分布。

25.1 Lindeberg–Levy 中心极限定理(经典形式)

${X_i}_{i=1}^\infty$ 是一列独立同分布的随机变量,满足:

  • $\mathbb{E}[X_i] = \mu$
  • $\operatorname{Var}(X_i) = \sigma^2 < \infty$

定义样本平均:

$$
\frac{1}{n} \sum_{i=1}^n X_i
$$

则有:

$$
\frac{\sqrt{n}(\overline{X}_n - \mu)}{\sigma} \xrightarrow{d} \mathcal{N}(0,1)
$$

🔍 说明:

  • $\xrightarrow{d}$ 表示按分布收敛
  • 结论表示,当样本量 $n$ 足够大时,$\overline{X}_n$ 的标准化结果近似服从标准正态分布

25.2 Lyapunov(隶莫夫)中心极限定理(推广形式)

${X_i}_{i=1}^n$ 是一列彼此独立的随机变量,满足:

  • $\mathbb{E}[X_i] = \mu_i$
  • $\operatorname{Var}(X_i) = \sigma_i^2 < \infty$

记:

  • $S_n = \sum_{i=1}^n X_i$
  • $B_n^2 = \sum_{i=1}^n \sigma_i^2$

如果存在 $\delta > 0$,使得 Lyapunov 条件成立:

$$
\lim_{n \to \infty} \frac{1}{B_n^{2+\delta}} \sum_{i=1}^n \mathbb{E}\left[|X_i - \mu_i|^{2+\delta}\right] = 0
$$

则有:

$$
\frac{S_n - \sum_{i=1}^n \mu_i}{B_n} \xrightarrow{d} \mathcal{N}(0,1)
$$

26. 钜函数与矩母函数(PGF & MGF)

26.1 概率生成函数(Probability Generating Function, PGF)

📌 定义:

设 $X$ 是一个非负整数值的离散型随机变量,其概率质量函数为 $P(X = k) = p_k$,则其概率生成函数定义为:

$$
G_X(s) = \mathbb{E}[s^X] = \sum_{k=0}^\infty p_k s^k, \quad |s| \leq 1
$$

✅ 性质:

  1. 规范性:$G_X(1) = \sum_{k=0}^\infty p_k = 1$

  2. 求期望:$G_X’(1) = \mathbb{E}[X]$

  3. 求方差

    $$
    \text{Var}(X) = G_X’’(1) + G_X’(1) - (G_X’(1))^2
    $$

  4. 卷积性质:若 $X$ 与 $Y$ 独立,$Z = X + Y$,则:

    $$
    G_Z(s) = G_X(s) \cdot G_Y(s)
    $$


🎯 示例:泊松分布

若 $X \sim \mathrm{Poisson}(\lambda)$,则有:

$$
G_X(s) = e^{\lambda(s - 1)}
$$


26.2 矩母函数(Moment Generating Function, MGF)

📌 定义:

设 $X$ 是一个随机变量,若存在 $\epsilon > 0$ 使得期望存在,则其矩母函数定义为:

$$
M_X(t) = \mathbb{E}[e^{tX}], \quad t \in (-\epsilon, \epsilon)
$$

✅ 性质:

  1. 计算 $k$ 阶原点矩(raw moment):

    $$
    \mathbb{E}[X^k] = M_X^{(k)}(0)
    $$

    即 $k$ 阶原点矩等于 $M_X(t)$ 在 $t=0$ 处的 $k$ 阶导数。

  2. 矩母函数的展开式

    $$
    M_X(t) = 1 + \mathbb{E}[X]t + \frac{\mathbb{E}[X^2]}{2!}t^2 + \frac{\mathbb{E}[X^3]}{3!}t^3 + \cdots
    $$

  3. 唯一性:若 $M_X(t)$ 存在,则它唯一确定随机变量 $X$ 的分布。

  4. 卷积性质(独立变量加法):

    $$
    M_{X + Y}(t) = M_X(t) \cdot M_Y(t)
    $$

  5. 平移性质
    若 $Y = X + a$,则:

    $$
    M_Y(t) = e^{at} \cdot M_X(t)
    $$

  6. 缩放性质
    若 $Y = bX$,则:

    $$
    M_Y(t) = M_X(bt)
    $$


🧮 示例1:正态分布

若 $X \sim N(\mu, \sigma^2)$,则:

$$
M_X(t) = \exp\left( \mu t + \frac{1}{2} \sigma^2 t^2 \right)
$$


🧮 示例2:指数分布

若 $X \sim \mathrm{Exp}(\lambda)$,则:

$$
M_X(t) = \frac{\lambda}{\lambda - t}, \quad t < \lambda
$$


26.3 原点矩与中心矩

1️⃣ 原点矩(Raw Moments):

原点矩是指关于原点 $0$ 的矩:

$$
\mu_k’ = \mathbb{E}[X^k] = M_X^{(k)}(0)
$$

前几个原点矩:

  • 一阶原点矩:$mu_1’ = \mathbb{E}[X]$(期望)
  • 二阶原点矩:$mu_2’ = \mathbb{E}[X^2]$
  • 三阶原点矩:$mu_3’ = \mathbb{E}[X^3]$

2️⃣ 中心矩(Central Moments):

中心矩是指关于期望 $\mu = \mathbb{E}[X]$ 的矩:

$$
\mu_k = \mathbb{E}[(X - \mu)^k]
$$

  • 一阶中心矩:$\mu_1 = 0$
  • 二阶中心矩:$\mu_2 = \text{Var}(X)$
  • 三阶中心矩:用于衡量偏态(skewness)
  • 四阶中心矩:用于衡量峰度(kurtosis)

26.4 钜函数 vs 矩母函数 比较

对比项 钜函数 PGF 矩母函数 MGF
定义公式 $G_X(s) = \mathbb{E}[s^X]$ $M_X(t) = \mathbb{E}[e^{tX}]$
适用范围 离散非负整数型变量 任意实值随机变量(若存在)
导数意义 $G^{(k)}(1)$ 与 $k$ 阶阶乘矩相关 $M^{(k)}(0) = \mathbb{E}[X^k]$
分布确定性 不一定唯一 若存在,则唯一确定分布
应用 组合性质、计数问题、泊松、二项等 计算矩、证明极限定理等

26.5 特征函数

当 MGF 不存在时,我们通常使用特征函数

$$
\phi_X(t) = \mathbb{E}[e^{itX}]
$$

特征函数总是存在,且也唯一确定分布,应用于中心极限定理、收敛性分析等。


27. 随机游走

随机游走指的是:一个随机过程 ${S_n}_{n\ge0}$ 从一个初始位置开始,每一步按照一定的概率向某个方向移动。

最简单的模型就是 一维对称随机游走

  • 初始位置 $S_0 = 0$

  • 每一步:

    $$
    S_{n} = S_{n-1} + X_n
    $$

    其中 $X_n$ 服从:

    $$
    P(X_n = +1) = p, \quad P(X_n = -1) = q = 1-p
    $$

  • 如果 $p = q = 0.5$,称为 对称随机游走;否则称为 非对称随机游走


分布规律

由于每一步是独立同分布的,走到第 $n$ 步时:

$$
S_n = X_1 + X_2 + \dots + X_n
$$

于是:

  • $S_n$ 的期望:

    $$
    E[S_n] = n (p-q) = n (2p - 1)
    $$

  • 方差:

    $$
    Var(S_n) = 4pq \cdot n
    $$

  • 分布:

    $$
    P(S_n = k) = \binom{n}{\frac{n+k}{2}} p^{\frac{n+k}{2}} q^{\frac{n-k}{2}}, \quad k \equiv n \pmod 2
    $$

    (注意 $k$ 与 $n$ 必须同奇偶性,否则概率为 0)


位置的对称性(对称随机游走)

如果 $p = 0.5$,那么:

$$
P(S_n = k) = P(S_n = -k)
$$

分布以原点为中心对称。


返回原点的概率

在对称随机游走中:

  • 第一次回到原点的概率随步数增加会变小
  • 在一维和二维的对称随机游走中,几乎必然会无限次回到原点(重现性 recurrent)
  • 在三维及更高维中,随机游走可能永远不回到原点(暂留性 transient)

吸收概率

假设在整数轴上设置两个吸收壁垒 $0$ 和 $N$,随机游走从位置 $i$ 出发,最终被吸收到 $N$ 的概率:

$$
P_i =
\begin{cases}
\dfrac{1 - (q/p)^i}{1 - (q/p)^N}, & p \neq q \
\dfrac{i}{N}, & p = q = 0.5
\end{cases}
$$

这是经典的赌徒破产问题(Gambler’s Ruin)。


连续极限 — 布朗运动

如果步长 $\delta$ 很小、时间间隔 $\tau$ 也很小,并让:

$$
\delta \to 0, \quad \tau \to 0, \quad \frac{\delta^2}{\tau} \to \sigma^2
$$

那么随机游走的极限过程就是 布朗运动 $B_t$,它满足:

$$
B_t \sim N(0, \sigma^2 t)
$$

这是随机游走和随机微分方程之间的桥梁。


应用领域

  • 金融:股票价格的简单模型(随机游走假说)
  • 物理:粒子的布朗运动、扩散过程
  • 计算机科学:蒙特卡罗算法、随机搜索
  • 生物学:分子随机运动、动物觅食路径

:在对称随机游走中,经过 4 步,位置恰好回到原点的概率是多少?

  • 回到原点表示 4 步中正好有 2 步向右、2 步向左:

$$
P = \frac{\binom{4}{2}}{2^4} = \frac{6}{16} = \frac{3}{8}
$$


28. 不偏估计量和最大似然估计

28.1 不偏估计量 (Unbiased Estimator)

设总体参数为 $\theta$,样本 $X_1, X_2, \dots, X_n$ 来自分布 $f(x;\theta)$。
如果估计量 $\hat{\theta}(X_1,\dots,X_n)$ 满足

$$
\mathbb{E}[\hat{\theta}] = \theta,
$$

则称 $\hat{\theta}$ 是 $\theta$ 的 不偏估计量

也就是说,平均意义下估计不会“偏大”或“偏小”。


常见例子

  1. 均值的估计
    总体均值 $\mu$ 的不偏估计量是样本均值:

    $$
    \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i, \quad \mathbb{E}[\bar{X}] = \mu.
    $$

  2. 方差的估计
    总体方差 $\sigma^2$ 的不偏估计量是:

    $$
    S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2, \quad \mathbb{E}[S^2] = \sigma^2.
    $$


28.2 最大似然估计 (Maximum Likelihood Estimation, MLE)

给定样本 $X_1, X_2, \dots, X_n$ 来自分布 $f(x;\theta)$,考虑似然函数

$$
L(\theta) = \prod_{i=1}^n f(X_i;\theta).
$$

通常取对数似然函数(简化计算):

$$
\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(X_i;\theta).
$$

解方程:

$$
\frac{d}{d\theta}\ell(\theta) = 0
$$

得到估计量。


常见例子

  1. 正态分布均值估计
    假设 $X_1,\dots,X_n \sim N(\mu,\sigma^2)$,且 $\sigma^2$ 已知。

    • 对数似然:

      $$
      \ell(\mu) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2.
      $$

    • 一阶导数:

      $$
      \frac{d}{d\mu}\ell(\mu) = \frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu) = 0.
      $$

    • 解得:

      $$
      \hat{\mu}_{\text{MLE}} = \bar{X}.
      $$

  2. 伯努利分布参数估计
    $X_i \sim Ber(p)$,则似然函数:

    $$
    L(p) = p^{\sum X_i}(1-p)^{n-\sum X_i}.
    $$

    对数似然:

    $$
    \ell(p) = \left(\sum X_i\right)\log p + \left(n-\sum X_i\right)\log(1-p).
    $$

    导数为零:

    $$
    \frac{\sum X_i}{p} - \frac{n-\sum X_i}{1-p} = 0.
    $$


28.3 对比与关系

特点 不偏估计量 最大似然估计量 (MLE)
定义 期望等于真实参数 使似然函数最大化
是否唯一 可能有多个不偏估计量 一般唯一
计算方法 用期望公式验证 构造似然函数求极值
优点 无系统偏差 常常渐近无偏且方差最小
缺点 不保证方差最小 小样本时可能有偏
典型例子 $\bar{X}$ 是 $\mu$ 的不偏估计 $\bar{X}$ 也是 $\mu$ 的 MLE

📌 总结

  • 不偏估计量强调“平均正确”;
  • 最大似然估计强调“样本最可能出现”;
  • 在很多经典分布中,MLE 与不偏估计量是相同的(比如正态分布均值)。
  • 但在一些情况(如方差估计),MLE 是有偏的,需要修正才成为不偏估计量。

偷偷说

概率论在我看来还是一个很麻烦的学科www,其中有很多推导证明以及一连串的公式真让人头大。


Probability Theory
http://toutou.zeabur.app/2025/07/25/Probability-theory/
Author
toutou
Posted on
July 25, 2025
Licensed under