
概率与统计(二):随机变量及关键分布
一次严谨的巡礼:涵盖随机变量、概率质量函数(PMF)、概率密度函数(PDF)、累积分布函数(CDF),以及所有在实践中至关重要的分布——Bernoulli、Binomial、Poisson、Gaussian、Exponential、Gamma 和 Beta——含推导、证明与 Python 可视化。
在上一篇文章中,我们构建了概率论的公理化基础,你或许会觉得花了太多时间讨论集合与子集——事实的确如此。事件与 σ-代数这套机制虽必不可少,却略显枯燥,无法自然地支持均值计算、离散度度量或数据拟合。
连接抽象概率与应用统计的桥梁正是随机变量(Random Variable)。一旦为样本空间中的结果赋予数值,整个微积分工具箱——导数、积分、级数——便随之启用,使我们能用一组命名分布来刻画随机性。每种分布都编码了关于数据生成机制的特定假设。
本文系统梳理你在实践中最常遇到的分布,并精确揭示其来源。
随机变量作为函数#
定义: 一个随机变量 $X$ 是从样本空间到实数集的函数:
$$X: \Omega \to \mathbb{R}$$且对任意实数 $x$ ,集合 $\{\omega \in \Omega : X(\omega) \leq x\}$ 是 $\mathcal{F}$ 中的一个事件。
可测性条件(定义的第二部分)确保诸如“$X$ 不超过 3 的概率是多少?”这类问题有明确定义的答案。对于有限或可数的样本空间,该条件自动满足。
示例: 同时掷两枚骰子,令 $X$ 表示点数之和。样本空间为 $\Omega = \{(i,j) : 1 \leq i,j \leq 6\}$ ,共 36 个等可能结果。随机变量 $X(i,j) = i + j$ 将每个有序对映射为 2 到 12 之间的整数。
关键转变在于:我们不再追踪完整结果 $\omega$ ,而是处理数值 $X(\omega)$ 。这会损失信息(例如 $X = 7$ 并不能告诉我们是 $(1,6)$ 还是 $(3,4)$ ),但细节上的损失换来了强大的数学表达力。
离散型随机变量#
若一个随机变量取值于可数集(有限或可数无限),则称其为离散型随机变量(Discrete Random Variable)。

概率质量函数(PMF)#
$$p_X(x) = P(X = x)$$其中 $x$ 取遍 $X$ 支撑集(support)中的所有值。其性质如下:
- 对所有 $x$ ,有 $p_X(x) \geq 0$
- $\sum_{x} p_X(x) = 1$ (对支撑集内所有值求和)
累积分布函数(CDF)#
任意随机变量(离散或连续)的累积分布函数(Cumulative Distribution Function, CDF) 定义为:
$$ F_X(x) = P(X \leq x) = \sum_{t \leq x} p_X(t) \quad \text{(离散情形)}. $$CDF 是右连续、非减函数,且满足 $\lim_{x \to -\infty} F(x) = 0$ 与 $\lim_{x \to \infty} F(x) = 1$ 。
关键离散分布#


Bernoulli 分布#
$$X \sim \text{Bernoulli}(p), \quad p_X(x) = p^x (1-p)^{1-x} \text{ for } x \in \{0, 1\}.$$- 均值(Mean): $E[X] = p$
- 方差(Variance): $\text{Var}(X) = p(1-p)$
所有二元结果——抛硬币、点击/未点击、垃圾邮件/非垃圾邮件——均可建模为 Bernoulli 试验。
Binomial 分布#
$$X \sim \text{Binomial}(n, p), \quad p_X(k) = \binom{n}{k} p^k (1-p)^{n-k} \text{ for } k = 0, 1, \ldots, n.$$推导: 恰好含 $k$ 次成功的某一特定序列的概率为 $p^k(1-p)^{n-k}$ ;此类序列总数为 $\binom{n}{k}$ 。
- 均值: $E[X] = np$
- 方差: $\text{Var}(X) = np(1-p)$
均值证明: 令 $X = X_1 + X_2 + \cdots + X_n$ ,其中每个 $X_i \sim \text{Bernoulli}(p)$ 。由期望的线性性:$E[X] = \sum E[X_i] = np$ 。$\blacksquare$
Geometric 分布#
$$X \sim \text{Geometric}(p), \quad p_X(k) = (1-p)^{k-1} p \text{ for } k = 1, 2, 3, \ldots$$ $$\sum_{k=1}^{\infty} (1-p)^{k-1} p = p \sum_{j=0}^{\infty} (1-p)^j = p \cdot \frac{1}{1-(1-p)} = p \cdot \frac{1}{p} = 1. \quad \checkmark$$- 均值: $E[X] = 1/p$
- 方差: $\text{Var}(X) = (1-p)/p^2$
Geometric 分布是 $r = 1$ 的特例。当建模过离散计数数据(方差大于均值)时,负二项分布自然出现,因此在实践中常作为 Poisson 的替代选择。
- 均值: $E[X] = r/p$
- 方差: $\text{Var}(X) = r(1-p)/p^2$
Poisson 分布#
$$X \sim \text{Poisson}(\lambda), \quad p_X(k) = \frac{\lambda^k e^{-\lambda}}{k!} \text{ for } k = 0, 1, 2, \ldots$$- 均值: $E[X] = \lambda$
- 方差: $\text{Var}(X) = \lambda$ (均值等于方差——Poisson 的标志性特征)
Poisson 对 Binomial 的近似#
当 $n$ 很大、$p$ 很小、且 $\lambda = np$ 适中时,有 $\text{Binomial}(n, p) \approx \text{Poisson}(\lambda)$ 。
$$\binom{n}{k} p^k (1-p)^{n-k} = \frac{n!}{k!(n-k)!} \left(\frac{\lambda}{n}\right)^k \left(1 - \frac{\lambda}{n}\right)^{n-k}.$$当 $n \to \infty$ 且 $\lambda = np$ 固定时:
- $\frac{n!}{(n-k)! \cdot n^k} \to 1$
- $(1 - \lambda/n)^n \to e^{-\lambda}$
- $(1 - \lambda/n)^{-k} \to 1$
故整个表达式收敛至 $\frac{\lambda^k e^{-\lambda}}{k!}$ 。$\blacksquare$
经验法则: 当 $n \geq 20$ 且 $p \leq 0.05$ 时,该近似效果良好。
连续型随机变量#
$$P(a \leq X \leq b) = \int_a^b f_X(x) \, dx,$$则称该随机变量为连续型随机变量(Continuous Random Variable)。
其性质如下:
- 对所有 $x$ ,有 $f_X(x) \geq 0$
- $\int_{-\infty}^{\infty} f_X(x) \, dx = 1$
关键区别: 对连续型随机变量,任一单点 $x$ 的概率 $P(X = x) = 0$ 。这并非矛盾——密度 $f(x)$ 可为正值,而单点概率却为零。概率存在于区间上,而非点上。
$$F_X(x) = P(X \leq x) = \int_{-\infty}^{x} f_X(t) \, dt$$ $$f_X(x) = F_X'(x).$$关键连续分布#
均匀分布(Uniform Distribution)#
$$X \sim \text{Uniform}(a, b), \quad f_X(x) = \frac{1}{b-a} \text{ for } x \in [a, b].$$
- 均值: $E[X] = (a+b)/2$
- 方差: $\text{Var}(X) = (b-a)^2/12$
- CDF: $F_X(x) = (x-a)/(b-a)$ ,当 $x \in [a,b]$
这是“最大无知”分布——区间 $[a,b]$ 内每个值出现概率均等。
指数分布(Exponential Distribution)#
$$X \sim \text{Exponential}(\lambda), \quad f_X(x) = \lambda e^{-\lambda x} \text{ for } x \geq 0.$$- 均值: $E[X] = 1/\lambda$
- 方差: $\text{Var}(X) = 1/\lambda^2$
- CDF: $F_X(x) = 1 - e^{-\lambda x}$
这使得指数分布在建模无记忆过程的等待时间时极为自然——如放射性衰变、泊松过程中的事件到达间隔、服务器请求间的时间间隔。
高斯(正态)分布(Gaussian / Normal Distribution)#
$$X \sim \mathcal{N}(\mu, \sigma^2), \quad f_X(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right).$$- 均值: $E[X] = \mu$
- 方差: $\text{Var}(X) = \sigma^2$
68–95–99.7 法则(经验法则):
| 区间 | 概率 |
|---|---|
| $\mu \pm \sigma$ | 0.6827 |
| $\mu \pm 2\sigma$ | 0.9545 |
| $\mu \pm 3\sigma$ | 0.9973 |
为何正态分布如此重要? 三大原因:
- 中心极限定理(Central Limit Theorem, CLT)(第 5 篇): 大量独立随机变量的和或均值,无论原分布如何,均收敛于正态分布。
- 最大熵(Maximum entropy): 在给定均值与方差的所有分布中,正态分布具有最高熵(即“最随机”或“最少信息”)。当你只知道均值与方差时,采用正态分布是最保守的选择。
- 数学便利性(Mathematical convenience): 正态分布在仿射变换(线性组合)、条件分布与边缘分布下封闭——使其成为线性回归、卡尔曼滤波器(Kalman filters)与高斯过程(Gaussian processes)的基石。
对数正态分布(Log-Normal Distribution)#
$$f_Y(y) = \frac{1}{y\sigma\sqrt{2\pi}} \exp\left(-\frac{(\ln y - \mu)^2}{2\sigma^2}\right) \quad \text{for } y > 0.$$- 均值: $E[Y] = e^{\mu + \sigma^2/2}$
- 方差: $\text{Var}(Y) = (e^{\sigma^2} - 1) e^{2\mu + \sigma^2}$
对数正态分布用于建模多个正因子乘积构成的量(如收入、股价、颗粒尺寸),正如正态分布建模多个加性因子之和。它恒为右偏且取值恒为正。
$$I^2 = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-(x^2 + y^2)/2} dx \, dy.$$ $$I^2 = \int_0^{2\pi} \int_0^{\infty} e^{-r^2/2} r \, dr \, d\theta = 2\pi \int_0^{\infty} r e^{-r^2/2} dr = 2\pi \left[-e^{-r^2/2}\right]_0^{\infty} = 2\pi.$$故 $I = \sqrt{2\pi}$ ,从而确认 $\frac{1}{\sqrt{2\pi}} e^{-x^2/2}$ 积分为 1。$\blacksquare$
Gamma 分布#
$$X \sim \text{Gamma}(\alpha, \beta), \quad f_X(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} \text{ for } x > 0$$其中 $\Gamma(\alpha) = \int_0^{\infty} t^{\alpha-1} e^{-t} dt$ 为伽马函数。当 $\alpha$ 为正整数时,$\Gamma(\alpha) = (\alpha - 1)!$ 。
- 均值: $E[X] = \alpha/\beta$
- 方差: $\text{Var}(X) = \alpha/\beta^2$
特例:$\text{Gamma}(1, \lambda) = \text{Exponential}(\lambda)$ ;$\text{Gamma}(n/2, 1/2) = \chi^2(n)$ (自由度为 $n$ 的卡方分布)。
Beta 分布#
$$X \sim \text{Beta}(\alpha, \beta), \quad f_X(x) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)} \text{ for } x \in (0, 1)$$其中 $B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$ 为贝塔函数。
- 均值: $E[X] = \frac{\alpha}{\alpha + \beta}$
- 方差: $\text{Var}(X) = \frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$
Beta 分布定义域为 $[0,1]$ ,天然适用于对概率本身建模。它是 Bernoulli 与 Binomial 似然函数的共轭先验(conjugate prior)——这一性质将在第 8 篇(贝叶斯统计)中被大量使用。
特例:$\text{Beta}(1,1) = \text{Uniform}(0,1)$ 。
分布参考表#
| 分布 | 类型 | PMF/PDF | 均值 | 方差 | 典型用途 |
|---|---|---|---|---|---|
| Bernoulli($p$ ) | 离散 | $p^x(1-p)^{1-x}$ | $p$ | $p(1-p)$ | 二元结果 |
| Binomial($n,p$ ) | 离散 | $\binom{n}{k}p^k(1-p)^{n-k}$ | $np$ | $np(1-p)$ | 成功次数计数 |
| Geometric($p$ ) | 离散 | $(1-p)^{k-1}p$ | $1/p$ | $(1-p)/p^2$ | 首次成功所需试验次数 |
| Poisson($\lambda$ ) | 离散 | $\frac{\lambda^k e^{-\lambda}}{k!}$ | $\lambda$ | $\lambda$ | 固定区间内事件计数 |
| Uniform($a,b$ ) | 连续 | $\frac{1}{b-a}$ | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ | 最大无知假设 |
| Exponential($\lambda$ ) | 连续 | $\lambda e^{-\lambda x}$ | $1/\lambda$ | $1/\lambda^2$ | 等待时间建模 |
| Normal($\mu,\sigma^2$ ) | 连续 | $\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2}$ | $\mu$ | $\sigma^2$ | 万能分布(CLT) |
| Gamma($\alpha,\beta$ ) | 连续 | $\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}$ | $\alpha/\beta$ | $\alpha/\beta^2$ | 等待时间之和 |
| Beta($\alpha,\beta$ ) | 连续 | $\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}$ | $\frac{\alpha}{\alpha+\beta}$ | $\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$ | 概率/比例建模 |
Python:可视化所有主要分布#
| |
此图鉴让你一览所有分布的形状。注意以下模式:
- Binomial 随 $p$ 趋近 0.5 而趋于对称;
- Poisson 随 $\lambda$ 增大而向右平移并趋于对称(依 CLT,渐近正态);
- Exponential 恒为右偏——多数等待时间短,少数极长;
- Beta 极其灵活:U 形、均匀、左/右偏,皆取决于参数;
- Gamma 推广了 Exponential,新增形状参数控制“峰形”。
分布间的联系#

上述分布并非彼此孤立,而是一个具有深层关联的家族:
- Bernoulli 是 $n=1$ 的 Binomial:$\text{Binomial}(1, p) = \text{Bernoulli}(p)$
- Binomial 是 Bernoulli 的和:若 $X_i \sim \text{Bernoulli}(p)$ 独立同分布,则 $\sum X_i \sim \text{Binomial}(n, p)$
- Poisson 近似 Binomial:$\text{Binomial}(n, \lambda/n) \to \text{Poisson}(\lambda)$ 当 $n \to \infty$
- Geometric 是离散版 Exponential:二者均具无记忆性
- Gamma 是 Exponential 的和:若 $X_i \sim \text{Exp}(\lambda)$ 独立同分布,则 $\sum X_i \sim \text{Gamma}(n, \lambda)$
- 卡方分布是特殊 Gamma:$\chi^2(n) = \text{Gamma}(n/2, 1/2)$
- Beta(1,1) = Uniform(0,1):均匀分布是 Beta 的特例
这些联系绝非偶然,它们反映了随机过程生成数据时内在的结构性关系。
分位函数与逆 CDF#
$$F^{-1}(p) = \inf\{x : F(x) \geq p\}.$$对 CDF 严格递增的连续分布,此式简化为:$F^{-1}(p)$ 是唯一满足 $F(x) = p$ 的 $x$ 。
关键分位点有专有名称:
- $F^{-1}(0.5)$ :中位数(median)
- $F^{-1}(0.25)$ 与 $F^{-1}(0.75)$ :四分位数(quartiles)
- $F^{-1}(0.01), \ldots, F^{-1}(0.99)$ :百分位数(percentiles)
分位函数对从任意分布生成随机样本至关重要。若 $U \sim \text{Uniform}(0, 1)$ ,则 $X = F^{-1}(U)$ 的 CDF 即为 $F$ 。此即逆 CDF 方法(inverse CDF method)(亦称概率积分变换(probability integral transform))。
证明: $P(X \leq x) = P(F^{-1}(U) \leq x) = P(U \leq F(x)) = F(x)$ ,因 $U$ 在 $(0,1)$ 上均匀分布。$\blacksquare$
示例: 生成 Exponential($\lambda$ ) 样本:$X = -\frac{1}{\lambda}\ln(1-U)$ ,其中 $U \sim \text{Uniform}(0,1)$ 。
验证: $F(x) = 1 - e^{-\lambda x}$ ,故 $F^{-1}(p) = -\frac{1}{\lambda}\ln(1-p)$ 。$\checkmark$
混合分布(Mixtures of Distributions)#
$$f(x) = \sum_{k=1}^{K} w_k f_k(x), \qquad \sum_{k=1}^K w_k = 1, \quad w_k \geq 0$$其中 $f_k$ 为各成分密度,$w_k$ 为混合权重。
示例: 人口由两组构成:70% 收入 $\sim \mathcal{N}(50000, 10000^2)$ ,30% 收入 $\sim \mathcal{N}(90000, 15000^2)$ 。整体收入分布即为双成分高斯混合——呈双峰,非正态。
高斯混合模型(Gaussian Mixture Models, GMMs)是无监督学习的主力:它将复杂、多峰数据建模为高斯分布的加权和,参数通过期望最大化(Expectation-Maximization, EM)算法拟合。
| |
如何选择合适分布:决策指南#
对真实数据建模时,选择恰当分布至关重要。以下是实用决策树:
变量是离散还是连续?
若为离散:
- 二元结果(是/否):Bernoulli
- 固定 $n$ 次试验中成功次数:Binomial
- 首次成功所需试验次数:Geometric
- 固定区间内稀有事件发生次数:Poisson
- 第 $r$ 次成功前失败次数:Negative Binomial
若为连续:
- 区间内所有值等可能:Uniform
- 等待时间,具无记忆性:Exponential
- 等待时间之和:Gamma
- 对称钟形,多因素之和:Normal
- 概率/比例(取值于 $[0,1]$ ):Beta
- 重尾、极端事件:t-distribution 或 Cauchy
- 正值、右偏:Log-Normal 或 Gamma
经验法则: 从简单入手。对连续数据,默认使用 Normal(CLT 为均值与和提供了理论依据)。仅当数据明显违背正态性时(如重尾、偏斜、有界支撑、离散计数),才选用更复杂的分布。
随机变量的函数:预览#
已知 $X$ 的分布,那么 $Y = g(X)$ 的分布是什么?该问题频繁出现——特征变换、衍生量计算、或不确定性在模型中传播。我们将在第 4 篇中完整展开该工具(雅可比行列式、卷积)。此处先以简单案例一窥端倪。
示例: 若 $X \sim \mathcal{N}(\mu, \sigma^2)$ ,则 $Y = aX + b$ 的分布为何?
$$Y = aX + b \sim \mathcal{N}(a\mu + b, a^2\sigma^2).$$这正是标准化成立的原因:$Z = (X - \mu)/\sigma$ 满足 $\mu_Z = 0$ 且 $\sigma_Z^2 = 1$ 。
示例: 若 $X \sim \text{Uniform}(0, 1)$ ,则 $Y = X^2$ 的分布为何?
使用 CDF 法:$F_Y(y) = P(X^2 \leq y) = P(X \leq \sqrt{y}) = \sqrt{y}$ ,其中 $0 \leq y \leq 1$ 。
求导得:$f_Y(y) = \frac{1}{2\sqrt{y}}$ ,其中 $0 < y < 1$ 。此即 $\text{Beta}(1/2, 1)$ 分布。
下一步#
至此,我们已能描述单个随机变量的概率分布。但分布是一个完整对象——它包含的信息远超我们日常易处理的范畴。下一篇将引入压缩该信息的汇总统计量(summary statistics):期望(“中心”)、方差(“离散度”)与矩生成函数(MGF,“指纹”,可唯一标识分布)。