机器学习数学推导(三):概率论与统计推断
从 Kolmogorov 公理到最大似然估计,从贝叶斯推断到信息论——一篇文章打通机器学习背后的概率与统计语言。
本文要讲什么
1912 年,Ronald Fisher 在一篇短文中提出了最大似然估计(MLE),从此悄悄改写了统计学。他的洞察直白到令人有些不好意思:如果某组参数让我们恰好看到的数据出现得特别"自然",那这组参数大概就是对的。从逻辑回归到大语言模型,几乎所有现代学习算法都是这个思路的后裔。
但仅有似然还不够。要把它真正用起来,我们还需要:一套描述不确定性的语言(概率空间、分布族);一组保证"经验量逼近总体量"的定理(大数定律、中心极限定理);以及把先验知识纳入推断的工具(贝叶斯框架)。这一章把这些拼图一块块拼起来,作为后续所有内容的统计学地基。
你将学到
- 概率空间与贝叶斯定理——让"以概率 $p$ 发生"这种说法获得严格意义的公理体系
- 常见分布(Bernoulli、Gaussian、Beta、Poisson、Dirichlet 等)——以及它们在 ML 中反复出现的本质原因
- 集中不等式与极限定理(Markov、Chebyshev、LLN、CLT)——有限样本能推断总体的根本依据
- 最大似然估计——模型训练背后实际优化的目标
- 贝叶斯估计——先验从何而来、为什么 MAP 是带正则的 MLE、共轭先验如何让数学变干净
- 假设检验与置信区间——$\alpha$、$\beta$ 与覆盖率背后的几何
- 信息论三件套——熵、KL 散度、互信息;通往交叉熵损失的桥梁
预备知识: 微积分(积分、Taylor 展开)、基本概率(随机变量、期望、方差),以及一点线性代数(用于多元高斯)。
1. 概率空间
1.1 Kolmogorov 公理
概率论的全部理论建立在三元组 $(\Omega, \mathcal{F}, P)$ 之上:
- 样本空间 $\Omega$ ——实验所有可能结果的集合;
- $\sigma$-代数 $\mathcal{F}$ ——允许我们赋予概率的"事件"集合,对补、对可数并都封闭;
- 概率测度 $P : \mathcal{F} \to [0, 1]$ ——满足非负性、归一性 $P(\Omega) = 1$ 与可数可加性。
为什么不能直接对所有子集定义概率? 因为对不可数的 $\Omega$(例如 $[0, 1]$)存在病态子集(Vitali 集),任何平移不变的概率都无法在它上面给出自洽的赋值。引入 $\sigma$-代数是规避悖论的代价。
1.2 条件概率与贝叶斯定理
对任意 $P(B) > 0$ 的事件 $B$,
$$ P(A \mid B) = \frac{P(A \cap B)}{P(B)}. \tag{1} $$把这个等式从两个方向写出再合并,就得到 贝叶斯定理:
$$ \boxed{\, P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)} \,} \tag{2} $$| 项 | 名称 | 角色 |
|---|---|---|
| $P(\theta)$ | 先验 | 看到数据之前对 $\theta$ 的信念 |
| $P(D \mid \theta)$ | 似然 | 参数 $\theta$ 解释数据的程度 |
| $P(\theta \mid D)$ | 后验 | 看到数据之后更新后的信念 |
| $P(D)$ | 证据 | 归一化常数 $\int P(D \mid \theta)\,P(\theta)\,d\theta$ |
贝叶斯定理是概率世界里的"学习规则":它精确告诉一个理性观察者,看到证据后该如何修订信念。从垃圾邮件过滤器到高斯过程,所有贝叶斯模型都不过是这一公式的具体实例。
1.3 独立性
若 $P(A \cap B) = P(A)\,P(B)$,称事件 $A, B$ 独立;若 $P(A \cap B \mid C) = P(A \mid C)\,P(B \mid C)$,称二者在 $C$ 下条件独立。
一个常见陷阱:独立和条件独立互不蕴含。两枚硬币本身相互独立,但一旦给定"恰有一枚正面"的条件,它们立刻变得不独立。图模型的几乎所有直觉都活在这个区分里。
2. 随机变量、期望与方差
随机变量 $X$ 是一个从样本空间到实数的可测函数 $X : \Omega \to \mathbb{R}$,其分布由以下三者刻画:
- CDF:$F(x) = P(X \le x)$,单调非降、右连续;
- PDF(连续型):$f(x) = F'(x)$,$P(a \le X \le b) = \int_a^b f(x)\,dx$;
- PMF(离散型):$p(x) = P(X = x)$。
期望是概率版本的"质心":
$$ \mathbb{E}[X] = \int x\,f(x)\,dx \quad\text{(连续)}, \qquad \mathbb{E}[X] = \sum_x x\,p(x) \quad\text{(离散)}. \tag{3} $$最有用的性质是线性性:
$$ \mathbb{E}[aX + bY] = a\,\mathbb{E}[X] + b\,\mathbb{E}[Y]. $$它总是成立,即使 $X, Y$ 相关。正是这条性质让我们能拆解二项分布的方差、推导偏差-方差权衡、分析 SGD 的更新方向。
方差衡量散布程度:
$$ \mathrm{Var}(X) = \mathbb{E}\!\left[(X - \mathbb{E}[X])^2\right] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2. \tag{4} $$对独立的 $X, Y$,$\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)$ ——这条加性是中心极限定理成立的根基。
协方差与相关系数度量线性关联:
$$ \mathrm{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)], \qquad \rho(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}. \tag{5} $$由 Cauchy–Schwarz 知 $|\rho| \le 1$。注意: $\rho = 0$ 只代表不相关,并不蕴含独立。经典反例:$X \sim \mathcal{N}(0, 1)$,$Y = X^2$,则 $\mathrm{Cov}(X, Y) = \mathbb{E}[X^3] = 0$,但 $Y$ 完全由 $X$ 决定。例外是联合高斯——此时不相关确实蕴含独立。
3. ML 中常见的概率分布
之所以总是这几个分布在反复出现,原因无非三种:(a) 它们是某种物理机制的天然模型,(b) 它们是给定某约束下的最大熵分布,(c) 它们是别人最喜欢用的某个分布的共轭先验。下图展示了 ML 中最常打交道的六个分布族。

3.1 离散分布
Bernoulli $X \sim \mathrm{Bern}(p)$ ——单次二元试验:
$$ P(X = k) = p^k (1 - p)^{1 - k}, \quad k \in \{0, 1\}. \tag{6} $$$\mathbb{E}[X] = p$,$\mathrm{Var}(X) = p(1 - p)$。所有二分类器的输出都遵从这一分布——逻辑回归学的就是它的参数 $p$。
Binomial $X \sim \mathrm{Bin}(n, p)$ ——$n$ 次独立 Bernoulli 试验中成功的次数:
$$ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}. \tag{7} $$把它写成 $X = \sum_{i = 1}^n X_i$($X_i \sim \mathrm{Bern}(p)$)后,用线性性两行就能推出 $\mathbb{E}[X] = np$、$\mathrm{Var}(X) = np(1 - p)$。
Poisson $X \sim \mathrm{Poi}(\lambda)$ ——固定时段内独立稀有事件的计数:
$$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \qquad \mathbb{E}[X] = \mathrm{Var}(X) = \lambda. \tag{8} $$它正是 $\mathrm{Bin}(n, \lambda / n)$ 在 $n \to \infty$ 时的极限,因此点击次数、服务器请求量、放射性衰变都用它建模。
3.2 连续分布
Gaussian $X \sim \mathcal{N}(\mu, \sigma^2)$ ——ML 中最重要的分布:
$$ f(x) = \frac{1}{\sqrt{2\pi}\,\sigma}\,\exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right). \tag{9} $$为什么高斯无处不在?
- 中心极限定理——大量独立小效应之和近似为高斯,无关原始分布形态;
- 最大熵性质——在固定均值与方差的所有分布中,高斯熵最大、假设最少;
- 闭包性质——线性变换、边缘化、条件化后仍是高斯。Kalman 滤波、线性回归后验、VAE 重参数化都靠这一点。
多元高斯 $X \sim \mathcal{N}(\mu, \Sigma)$ 的密度:
$$ f(x) = \frac{1}{(2\pi)^{d/2}\,|\Sigma|^{1/2}}\,\exp\!\left(-\tfrac{1}{2}(x - \mu)^\top \Sigma^{-1}(x - \mu)\right). \tag{10} $$它的等高面是椭球,主轴正是 $\Sigma$ 的特征向量——这就是 PCA 的几何来源。
指数分布 $X \sim \mathrm{Exp}(\lambda)$ :$f(x) = \lambda e^{-\lambda x}$($x \ge 0$),具有无记忆性 $P(X > s + t \mid X > s) = P(X > t)$,刻画 Poisson 过程的等待时间。
Beta 分布 $X \sim \mathrm{Beta}(\alpha, \beta)$ :定义在 $[0, 1]$ 上,是 Bernoulli/二项的共轭先验。均值 $\alpha / (\alpha + \beta)$,形态从 U 形($\alpha, \beta < 1$)一直变到钟形($\alpha, \beta > 1$)。
Gamma 分布 $X \sim \mathrm{Gamma}(k, \theta)$ :是指数($k = 1$)和卡方($k = n/2$,$\theta = 2$)的推广,也是 Poisson 速率的共轭先验。
Dirichlet 分布 $X \sim \mathrm{Dir}(\alpha)$ :把 Beta 推广到 $K$-单纯形,是分类/多项分布的共轭先验。上图中 $(3, 5, 2)$ 的浓度参数把质量明显拉向 $x_2$ 顶点。
4. 极限定理:大样本下 ML 为何有效
4.1 集中不等式
它们粗糙但永远成立——只知道一阶矩或二阶矩时也能给出有用的界。
$$ P(X \ge a) \le \frac{\mathbb{E}[X]}{a}. \tag{11} $$Chebyshev 不等式。 把 Markov 应用于 $(X - \mu)^2$:
$$ P(|X - \mu| \ge k) \le \frac{\sigma^2}{k^2}. \tag{12} $$这两条不等式是所有 PAC 风格学习界的"种子"。
4.2 大数定律
对 i.i.d. 样本 $X_1, \ldots, X_n$(均值 $\mu$,方差 $\sigma^2$ 有限),弱大数定律断言
$$ P(|\bar{X}_n - \mu| > \epsilon) \le \frac{\sigma^2}{n\epsilon^2} \;\longrightarrow\; 0. \tag{13} $$一句话:经验均值集中到真实期望。这正是经验风险最小化(拿训练数据上表现好的模型)有可能泛化的形式根据。
4.3 中心极限定理
如果说 LLN 告诉我们样本均值会收敛,那 CLT 告诉我们收敛得多快、收敛到什么形状:
$$ \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1). \tag{14} $$收敛之惊人在于:哪怕原始分布极度偏斜,标准化后的样本均值仍会逼近高斯。下图用 $\mathrm{Exp}(1)$(一个极不对称的分布)作为底层,展示 $n$ 增大时标准化均值如何"长成" $\mathcal{N}(0, 1)$ 的形状。

证明思路(特征函数):对标准化后的 $X_i$ 在 0 处展开 $\phi(t) = 1 - t^2/2 + o(t^2)$;标准化均值的特征函数为 $\phi(t/\sqrt{n})^n \approx (1 - t^2/(2n))^n \to e^{-t^2/2}$,正是 $\mathcal{N}(0, 1)$ 的特征函数。再用 Lévy 连续性定理收尾。
CLT 对 ML 意味着什么? 验证集损失的置信区间、A/B 实验的 t 检验、线性回归的高斯噪声假设、以及下面 MLE 的渐近正态性——全部由它撑起。
5. 参数估计
5.1 估计量的性质
估计量 $\hat{\theta}_n$ 就是样本的某个函数。三个性质最重要:
- 无偏性:$\mathbb{E}[\hat{\theta}_n] = \theta$;
- 相合性:$\hat{\theta}_n \xrightarrow{P} \theta$($n \to \infty$);
- MSE 分解:$\mathrm{MSE}(\hat\theta) = \mathrm{Bias}(\hat\theta)^2 + \mathrm{Var}(\hat\theta)$。
ML 中老生常谈的偏差-方差权衡,本质上就是把这条分解从参数搬到了预测上。
为什么样本方差除以 $n - 1$? 因为天真的 $\frac{1}{n}\sum (X_i - \bar{X})^2$ 是有偏的:
$$ \mathbb{E}\!\left[\frac{1}{n}\sum (X_i - \bar{X})^2\right] = \frac{n - 1}{n}\,\sigma^2. $$除以 $n - 1$ 才能修正这个偏差。直觉是:用同一份数据估计 $\bar{X}$ “用掉了"一个自由度,所以剩下 $n - 1$ 个有效独立残差。
5.2 最大似然估计(MLE)
对来自模型 $f(x; \theta)$ 的 i.i.d. 样本 $x_1, \ldots, x_n$,似然函数与对数似然为:
$$ L(\theta) = \prod_{i = 1}^n f(x_i; \theta), \qquad \ell(\theta) = \log L(\theta) = \sum_{i = 1}^n \log f(x_i; \theta). \tag{15} $$MLE 即 $\hat\theta_{\mathrm{MLE}} = \arg\max_\theta \ell(\theta)$。
$$ \ell(p) = \left(\sum x_i\right) \log p + \left(n - \sum x_i\right) \log (1 - p). $$令 $\ell'(p) = 0$ 得 $\hat p_{\mathrm{MLE}} = \bar x$ ——成功的经验比例。逻辑回归本质上就是这个推导,只是把 $p$ 进一步用特征参数化了。
$$ \hat\mu_{\mathrm{MLE}} = \bar x, \qquad \hat\sigma^2_{\mathrm{MLE}} = \frac{1}{n}\sum (x_i - \bar x)^2. \tag{16} $$注意 $\hat\sigma^2_{\mathrm{MLE}}$ 是有偏的——它除以 $n$ 而非 $n - 1$。MLE 优化的是似然,而非无偏性。
渐近性质。 在温和的正则条件下,MLE 满足:
- 相合性:$\hat\theta_n \to \theta_0$(依概率);
- 渐近正态性:$\sqrt{n}(\hat\theta_n - \theta_0) \xrightarrow{d} \mathcal{N}(0,\, I(\theta_0)^{-1})$;
- 渐近有效性:渐近方差恰好达到 Cramér–Rao 下界。
其中 $I(\theta) = -\mathbb{E}[\partial^2 \ell / \partial \theta^2]$ 是 Fisher 信息,刻画对数似然在真值处有多"陡”——即数据中关于参数的信息量。
5.3 贝叶斯估计
贝叶斯视角把 $\theta$ 当作随机变量,赋予先验 $P(\theta)$,再由贝叶斯定理给出后验:
$$ P(\theta \mid D) \propto P(D \mid \theta)\,P(\theta). \tag{17} $$下图展示一个 Beta–Bernoulli 的更新过程:先验、似然、后验三段连贯地呈现。

正好是 MLE 加上先验贡献的"伪观测" $\alpha$ 与 $\beta$。当 $n \to \infty$,后验均值收敛到 MLE——数据多到一定程度,先验自然让位。
MAP(最大后验估计) 取后验众数:
$$ \hat\theta_{\mathrm{MAP}} = \arg\max_\theta \left[\log P(D \mid \theta) + \log P(\theta)\right]. \tag{19} $$这恰恰就是带正则的 MLE。线性回归取 Gaussian 先验 $\theta \sim \mathcal{N}(0, \tau^2 I)$,MAP 就是岭回归;取 Laplace 先验则得到 Lasso。
数据充足时,MLE、MAP 与完整后验几乎一致;数据稀少时三者可能差异巨大。下图用同一份"5 投 4 正"的数据,把三种估计放在一起对比。

| 维度 | 频率派(MLE) | 贝叶斯派 |
|---|---|---|
| 参数 | 固定但未知 | 随机变量 |
| 先验知识 | 不使用 | 显式建模 |
| 输出 | 点估计 | 完整后验分布 |
| 不确定性 | 置信区间 | 可信区间 |
| 计算 | 通常解析可解 | 多需 MCMC 或变分 |
6. 假设检验与置信区间
6.1 假设检验
检验把零假设 $H_0$ 与备择假设 $H_1$ 摆在天平两端:算出检验统计量 $T$,若它落入预先选定的拒绝域则拒绝 $H_0$。两类错误不可避免:
| 决策 \ 事实 | $H_0$ 为真 | $H_0$ 为假 |
|---|---|---|
| 接受 $H_0$ | 正确 | 第二类错误($\beta$) |
| 拒绝 $H_0$ | 第一类错误($\alpha$) | 正确(功效 $1 - \beta$) |
显著性水平 $\alpha$ 是第一类错误的概率,由我们事先选定(通常 0.05),并通过设计检验把它控制住。功效 $1 - \beta$ 取决于备择假设和样本量。
下图把这种权衡画了出来:两条分布分别代表 $H_0$ 和 $H_1$ 下世界的样子,阈值 $c$ 把决策一刀切开。把 $c$ 左移会让 $\beta$ 变小但 $\alpha$ 变大,反之亦然——天下没有免费午餐,除非加大样本量。

p 值。 在 $H_0$ 为真的前提下,观测到当前或更极端数据的概率。若 $p < \alpha$ 则拒绝 $H_0$。
例 —— 单样本 t 检验。 检验 $H_0 : \mu = \mu_0$($\sigma$ 未知):
$$ t = \frac{\bar X - \mu_0}{S / \sqrt{n}} \sim t_{n - 1}\quad (\text{在 } H_0 \text{ 下}). \tag{20} $$6.2 置信区间
均值(已知 $\sigma$)的 $(1 - \alpha)$ 置信区间为
$$ \bar X \pm z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}. \tag{21} $$用词需要谨慎。 这里的 $1 - \alpha$ 是关于流程的概率,而非关于参数本身的概率。如果反复重复这个实验,约 $(1 - \alpha)$ 比例的区间会包含真实 $\mu$;但任何一个具体的区间,要么包含 $\mu$ 要么不包含,没有中间状态。
下图把这件事可视化得很直观:同一数据生成过程下做 50 次实验,画出 50 个 95% CI,按是否覆盖真值上色。

如果你想直接说"参数有 95% 概率落在这个区间里",那需要用贝叶斯可信区间——后验分布的分位数。
7. 信息论速览
信息论是概率论与"学习目标"之间的桥梁。三个量最为关键。

熵 度量"期望意外度"。对离散分布 $p$,
$$ H(p) = -\sum_x p(x) \log p(x). $$Bernoulli 的熵在 $p = 0.5$ 取得最大值 1 bit——一枚公平硬币是最不可预测的。交叉熵损失正是 $H(p, q) = -\sum p(x) \log q(x)$,即真实标签分布与模型预测分布之间的"距离"。
KL 散度 $D_{\mathrm{KL}}(P \,\|\, Q) = \sum_x p(x) \log \tfrac{p(x)}{q(x)}$ 衡量用 $Q$ 近似 $P$ 时损失了多少信息。它非负、$P = Q$ 时为零,并且不对称——上图中两个偏移的高斯就显出 $D_{\mathrm{KL}}(P \| Q) \neq D_{\mathrm{KL}}(Q \| P)$。变分推断、蒸馏、KL 正则化的策略学习全都建立在这个不对称性之上。
互信息 $I(X; Y) = D_{\mathrm{KL}}\bigl(P(X, Y) \,\|\, P(X) P(Y)\bigr)$ 度量依赖程度。对二元高斯,$I(X; Y) = -\tfrac{1}{2} \log(1 - \rho^2)$ ——$\rho = 0$ 时独立,$|\rho| \to 1$ 时趋于无穷。互信息把"相关系数"推广到了任意(包括非线性)依赖关系。
8. 习题
练习 1(基率谬误)。 某疾病患病率 0.1%,检测灵敏度 99%、特异度 95%。检测阳性后实际患病的概率?
$$ P(D \mid +) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.05 \times 0.999} \approx 0.0194. $$仅约 2%——低基率主导一切。这也是为什么对罕见病的筛查检测必须有极高的特异度才有实际价值。
练习 2(均匀分布的 MLE)。 $X_i \sim \mathrm{Uniform}(0, \theta)$,求 MLE。
解答。似然 $L(\theta) = \theta^{-n}$(当 $\theta \ge X_{(n)}$)否则为 0,故 $\hat\theta_{\mathrm{MLE}} = X_{(n)} = \max_i X_i$。它是有偏的:$\mathbb{E}[X_{(n)}] = \tfrac{n}{n + 1}\theta$。无偏修正为 $\tfrac{n + 1}{n} X_{(n)}$。
练习 3(CLT 的应用)。 螺丝长度 $\mu = 10$ mm、$\sigma = 0.2$ mm,抽 $n = 100$ 根,求 $P(9.96 \le \bar X \le 10.04)$。
解答。CLT 给出 $\bar X \approx \mathcal{N}(10, 0.02^2)$,标准化得 $P(|Z| \le 2) \approx 0.9544$。
练习 4(贝叶斯硬币)。 先验 $p \sim \mathrm{Beta}(2, 2)$,观测到 10 次中 7 次正面,求后验。
解答。由共轭性,$p \mid D \sim \mathrm{Beta}(9, 5)$。后验均值 $9/14 \approx 0.643$ ——先验把 MLE 的 0.7 拉向 0.5。
练习 5(假设检验)。 工厂宣称 $\mu = 500$ g。样本 $n = 25$、$\bar x = 498$、$s = 10$,在 $\alpha = 0.05$ 下检验。
解答。$t = (498 - 500) / (10/5) = -1.0$。临界值 $t_{0.025, 24} \approx 2.064$,由于 $|t| < 2.064$,不拒绝 $H_0$。注意:不拒绝 $H_0$ 不等于支持 $H_0$,更可能只是 $n = 25$ 不足以检测出 2 g 的偏差。
总结
| 概念 | 核心公式 | ML 中的含义 |
|---|---|---|
| 贝叶斯定理 | $P(\theta \mid D) \propto P(D \mid \theta) P(\theta)$ | 贝叶斯 ML 的根基 |
| MLE | $\hat\theta = \arg\max \sum \log f(x_i; \theta)$ | 模型训练真正优化的目标 |
| MAP / 正则 | MAP = MLE + log 先验 | 岭 ↔ Gaussian 先验,Lasso ↔ Laplace |
| CLT | $\bar X_n \approx \mathcal{N}(\mu, \sigma^2 / n)$ | 置信区间、t 检验、MLE 渐近正态性 |
| 共轭先验 | Beta–Bernoulli、Gamma–Poisson、Gaussian–Gaussian | 闭式后验 |
| 交叉熵 | $-\sum p(x) \log q(x)$ | 分类损失 |
| KL 散度 | $\sum p \log (p/q)$ | 变分推断、蒸馏、RL 正则 |
记住下面五句,剩下的内容都是插值:
贝叶斯更新信念(后验 ∝ 似然 × 先验)。
大数定律保证均值收敛。
中心极限说明它收敛到高斯。
MLE 渐近达到效率下界。
MAP 是带正则的 MLE。
参考文献
- Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.
- Wasserman, L. (2004). All of Statistics. Springer.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
- Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
系列导航
| 篇 | 主题 | 链接 |
|---|---|---|
| 2 | 线性代数与矩阵论 | <– 上一篇 |
| 3 | 概率论与统计推断 | 当前位置 |
| 4 | 凸优化理论 | 下一篇 –> |
| 5 | 线性回归 | 前往 –> |
| 6 | 逻辑回归与分类 | 前往 –> |