
机器学习数学推导(三):概率论与统计推断
从 Kolmogorov 公理到最大似然估计,从贝叶斯推断到信息论——一篇文章打通机器学习背后的概率与统计语言。
本文要讲什么#
1912 年,Ronald Fisher 在一篇短文中提出了最大似然估计(MLE),从此悄悄改变了统计学的面貌。他的想法简单得让人有点不好意思:如果某组参数让观察到的数据显得特别合理,那么这组参数很可能就是正确的。从逻辑回归到大语言模型,几乎所有现代学习算法都源于这一思路。

但光有似然是不够的。要用好它,需要描述不确定性的语言(概率空间、分布族)、保证经验数据能反映总体特性的定理(大数定律、中心极限定理),以及将先验知识融入推断的工具(贝叶斯框架)。这篇文章把这些关键部分拼接起来,为后续内容打下扎实的统计学基础。
你将学到
- 概率空间与贝叶斯定理——如何严格定义“以概率 $p$ 发生”这句话
- 常见分布(Bernoulli、Gaussian、Beta、Poisson、Dirichlet 等)——为什么这些分布在机器学习中反复出现
- 集中不等式与极限定理(Markov、Chebyshev、LLN、CLT)——有限样本为何能揭示总体特性
- 最大似然估计——训练模型时实际优化的目标
- 贝叶斯估计——先验的来源、为什么 MAP 是正则化的 MLE、共轭先验如何简化数学
- 假设检验与置信区间——$\alpha$ 、$\beta$ 和覆盖率背后的几何意义
- 信息论三件套——熵、KL 散度、互信息;它们如何连接到交叉熵损失
预备知识: 微积分(积分、Taylor 展开)、基本概率(随机变量、期望、方差),以及一点线性代数(用于多元高斯)。
概率空间#
Kolmogorov 公理#
概率论的核心是一个三元组 $(\Omega, \mathcal{F}, P)$ 。
- 样本空间 $\Omega$ —— 实验所有可能结果的集合。
- $\sigma$ -代数 $\mathcal{F}$ —— 可以赋予概率的“事件”集合,对补集和可数并集封闭。
- 概率测度 $P : \mathcal{F} \to [0, 1]$ —— 满足非负性、归一化 $P(\Omega) = 1$ 和可数可加性(针对互斥事件)。
为什么不能直接对所有子集定义概率?因为对于不可数的 $\Omega$ (比如 $[0, 1]$ ),存在一些病态子集(如 Vitali 集),无法在其上定义平移不变的概率。限制在 $\sigma$ -代数内是避免悖论的代价。
条件概率与贝叶斯定理#
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}. \tag{1}$$ $$\boxed{\, P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)} \,} \tag{2}$$| 项 | 名称 | 作用 |
|---|---|---|
| $P(\theta)$ | 先验 | 看到数据之前对 $\theta$ 的信念 |
| $P(D \mid \theta)$ | 似然 | 参数 $\theta$ 对数据的解释能力 |
| $P(\theta \mid D)$ | 后验 | 看到数据后更新的信念 |
| $P(D)$ | 证据 | 归一化常数,$\int P(D \mid \theta)\,P(\theta)\,d\theta$ |
贝叶斯定理是概率世界中的“学习法则”。它明确告诉一个理性观察者,如何根据证据更新自己的信念。从垃圾邮件过滤器到高斯过程,所有贝叶斯模型都基于这一个公式。
独立性#
如果 $P(A \cap B) = P(A)\,P(B)$ ,称事件 $A$ 和 $B$ 独立;如果 $P(A \cap B \mid C) = P(A \mid C)\,P(B \mid C)$ ,称它们在 $C$ 下 条件独立。
一个常见误区是:独立性和条件独立性并不互相蕴含。两枚硬币本身相互独立,但一旦给定“恰好有一枚正面”的条件,它们立刻变得相关。图模型的直觉大多基于这种区分。
随机变量、期望与方差#
随机变量 $X$ 是一个从样本空间 $\Omega$ 映射到实数的可测函数 $X : \Omega \to \mathbb{R}$ 。它的分布可以用以下三种方式描述:
- CDF (累积分布函数):$F(x) = P(X \le x)$ ,单调不减且右连续。
- PDF (概率密度函数,连续型):$f(x) = F'(x)$ ,满足 $P(a \le X \le b) = \int_a^b f(x)\,dx$ 。
- PMF (概率质量函数,离散型):$p(x) = P(X = x)$ 。
这个性质始终成立,无论 $X$ 和 $Y$ 是否相关。它让我能拆解二项分布的方差、推导偏差-方差权衡,还能分析 SGD 的更新过程。
$$\mathrm{Var}(X) = \mathbb{E}\!\left[(X - \mathbb{E}[X])^2\right] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2. \tag{4}$$如果 $X$ 和 $Y$ 独立,那么 $\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)$ 。这种加性是中心极限定理成立的关键。
$$\mathrm{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)], \qquad \rho(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}. \tag{5}$$根据 Cauchy–Schwarz 不等式,相关系数的绝对值满足 $|\rho| \le 1$ 。需要注意的是,$\rho = 0$ 只表示“不相关”,并不意味着“独立”。经典反例是:设 $X \sim \mathcal{N}(0, 1)$ ,$Y = X^2$ ,此时 $\mathrm{Cov}(X, Y) = \mathbb{E}[X^3] = 0$ ,但 $Y$ 完全由 $X$ 决定。唯一的例外是联合高斯分布——在这种情况下,不相关确实意味着独立。
常见的概率分布#
在机器学习中,总有一些概率分布反复出现。原因很简单:要么它们是某种物理机制的自然模型,要么是在特定约束下具有最大熵,要么是其他常用分布的共轭先验。下图列出了六个最常见的分布族,基本涵盖了 ML 中用到的所有情况。

离散分布#
$$P(X = k) = p^k (1 - p)^{1 - k}, \quad k \in \{0, 1\}. \tag{6}$$期望 $\mathbb{E}[X] = p$ ,方差 $\mathrm{Var}(X) = p(1 - p)$ 。所有二分类器的输出都服从这个分布,逻辑回归学的就是参数 $p$ 。
$$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}. \tag{7}$$把 $X$ 写成 $X = \sum_{i=1}^n X_i$ (其中 $X_i \sim \mathrm{Bern}(p)$ ),利用线性性质可以快速得出 $\mathbb{E}[X] = np$ 和 $\mathrm{Var}(X) = np(1 - p)$ 。
$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \qquad \mathbb{E}[X] = \mathrm{Var}(X) = \lambda. \tag{8}$$它是 $\mathrm{Bin}(n, \lambda / n)$ 在 $n \to \infty$ 时的极限,因此常用来建模点击量、服务器请求和光子到达等场景。
连续分布#
$$f(x) = \frac{1}{\sqrt{2\pi}\,\sigma}\,\exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right). \tag{9}$$为什么高斯分布无处不在?
- 中心极限定理—— 大量独立小效应的叠加近似为高斯分布,与原始分布无关;
- 最大熵性质—— 在固定均值和方差的所有分布中,高斯分布的不确定性最大,假设最少;
- 闭包性质—— 高斯分布在经过线性变换、边缘化或条件化后仍然是高斯分布。Kalman 滤波、线性回归后验推断、VAE 的重参数化全都依赖这一点。
它的等高线是椭球,主轴方向由协方差矩阵 $\Sigma$ 的特征向量决定——这就是 PCA 的几何基础。
指数分布 $X \sim \mathrm{Exp}(\lambda)$ 的密度函数为 $f(x) = \lambda e^{-\lambda x}$ ($x \ge 0$ ),具有无记忆性:$P(X > s + t \mid X > s) = P(X > t)$ 。它用来描述 Poisson 过程中的等待时间。
Beta 分布 $X \sim \mathrm{Beta}(\alpha, \beta)$ 定义在区间 $[0, 1]$ 上,是 Bernoulli 和二项分布的共轭先验。其均值为 $\alpha / (\alpha + \beta)$ ,形状从 U 形($\alpha, \beta < 1$ )到钟形($\alpha, \beta > 1$ )不等。
Gamma 分布 $X \sim \mathrm{Gamma}(k, \theta)$ 是指数分布($k = 1$ )和卡方分布($k = n/2$ ,$\theta = 2$ )的推广,也是 Poisson 分布速率参数的共轭先验。
Dirichlet 分布 $X \sim \mathrm{Dir}(\alpha)$ 将 Beta 分布推广到 $K$ -单纯形,是分类分布和多项分布的共轭先验。上图中浓度参数 $(3, 5, 2)$ 把分布的质量明显拉向了 $x_2$ 顶点。
极限定理:为什么机器学习在大规模数据上有效#

集中不等式#
这些不等式虽然粗糙,但永远成立。即使只知道一阶矩或二阶矩,它们也能提供有用的边界。
$$P(X \ge a) \le \frac{\mathbb{E}[X]}{a}. \tag{11}$$ $$P(|X - \mu| \ge k) \le \frac{\sigma^2}{k^2}. \tag{12}$$这两个不等式是所有 PAC 风格学习理论的基础。
大数定律#
$$P(|\bar{X}_n - \mu| > \epsilon) \le \frac{\sigma^2}{n\epsilon^2} \;\longrightarrow\; 0. \tag{13}$$简单来说,经验均值会越来越接近真实期望。这就是为什么通过最小化训练数据上的经验风险,模型有可能泛化到未见数据。
中心极限定理#
$$\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1). \tag{14}$$这个结果令人惊叹:即使原始分布极度偏斜,标准化后的样本均值仍然会逼近高斯分布。下图展示了以 $\mathrm{Exp}(1)$ (一个极不对称的分布)为底层时,随着 $n$ 增大,标准化均值如何逐渐趋近于标准正态分布 $\mathcal{N}(0, 1)$ 。

证明思路(特征函数)
对标准化后的 $X_i$
在 0 处展开其特征函数:$\phi(t) = 1 - t^2/2 + o(t^2)$
。标准化均值的特征函数为 $\phi(t/\sqrt{n})^n \approx (1 - t^2/(2n))^n \to e^{-t^2/2}$
,这正是标准正态分布 $\mathcal{N}(0, 1)$
的特征函数。最后用 Lévy 连续性定理完成证明。
中心极限定理对机器学习的意义
它支撑了验证集损失的置信区间、A/B 实验中的 t 检验、线性回归中的高斯噪声假设,以及后续要推导的最大似然估计(MLE)的渐近正态性。
参数估计#
估计量的性质#
估计量 $\hat{\theta}_n$ 是样本的一个函数。我最关心它的三个性质:
- 无偏性:$\mathbb{E}[\hat{\theta}_n] = \theta$ 。
- 相合性:当 $n \to \infty$ ,$\hat{\theta}_n \xrightarrow{P} \theta$ 。
- 均方误差分解:$\mathrm{MSE}(\hat{\theta}) = \mathrm{Bias}(\hat{\theta})^2 + \mathrm{Var}(\hat{\theta})$ 。
机器学习里常说的偏差-方差权衡,其实就是把这种分解用在预测上,而不是参数。
$$\mathbb{E}\!\left[\frac{1}{n}\sum (X_i - \bar{X})^2\right] = \frac{n - 1}{n}\,\sigma^2.$$除以 $n - 1$ 就能修正这个偏差。直观理解是:从同一份数据里估计 $\bar{X}$ 会“消耗”一个自由度,剩下的有效独立残差只有 $n - 1$ 个。
最大似然估计(MLE)#
$$L(\theta) = \prod_{i=1}^n f(x_i; \theta), \qquad \ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(x_i; \theta). \tag{15}$$ $$\hat{\theta}_{\mathrm{MLE}} = \arg\max_\theta \ell(\theta).$$ $$\ell(p) = \left(\sum x_i\right) \log p + \left(n - \sum x_i\right) \log(1 - p).$$令 $\ell'(p) = 0$ ,得到 $\hat{p}_{\mathrm{MLE}} = \bar{x}$ ,也就是成功的经验比例。逻辑回归本质上就是这个计算,只不过用特征对 $p$ 做了参数化。
$$\hat{\mu}_{\mathrm{MLE}} = \bar{x}, \qquad \hat{\sigma}^2_{\mathrm{MLE}} = \frac{1}{n}\sum (x_i - \bar{x})^2. \tag{16}$$注意,$\hat{\sigma}^2_{\mathrm{MLE}}$ 是有偏的——它除以 $n$ 而不是 $n - 1$ 。MLE 的目标是优化似然,而不是无偏性。
渐近性质: 在一些温和的正则条件下,MLE 满足以下三点:
- 相合性:$\hat{\theta}_n \to \theta_0$ (依概率)。
- 渐近正态性:$\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} \mathcal{N}(0,\, I(\theta_0)^{-1})$ 。
- 渐近有效性:它的渐近方差达到了 Cramér–Rao 下界。
这里的 $I(\theta) = -\mathbb{E}[\partial^2 \ell / \partial \theta^2]$ 是Fisher 信息,用来衡量对数似然在真实值处的“陡峭程度”,也就是数据中包含的关于参数的信息量。
贝叶斯估计#
$$P(\theta \mid D) \propto P(D \mid \theta)\,P(\theta). \tag{17}$$下图展示了一个 Beta–Bernoulli 模型的更新过程:先验、似然和后验并列呈现。

这相当于 MLE 加上了先验贡献的“伪观测” $\alpha$ 和 $\beta$ 。当 $n \to \infty$ ,后验均值会收敛到 MLE——数据多了,先验的影响自然就小了。
$$\hat{\theta}_{\mathrm{MAP}} = \arg\max_\theta \left[\log P(D \mid \theta) + \log P(\theta)\right]. \tag{19}$$这其实就是带正则的 MLE。如果先验是高斯分布 $\theta \sim \mathcal{N}(0, \tau^2 I)$ ,线性回归的 MAP 就是岭回归;如果是拉普拉斯分布,那就是 Lasso。
数据多的时候,MLE、MAP 和完整后验基本一致;数据少的时候,三者可能差别很大。下图用同一份“5 投 4 正”的数据,展示了三种估计的结果对比。

| 特性 | 频率派(MLE) | 贝叶斯派 |
|---|---|---|
| 参数 | 固定但未知 | 随机变量 |
| 先验知识 | 不用 | 显式建模 |
| 输出 | 点估计 | 完整后验分布 |
| 不确定性 | 置信区间 | 可信区间 |
| 计算 | 通常解析可解 | 多需 MCMC 或变分 |
假设检验与置信区间#
假设检验#
假设检验的核心是对比零假设 $H_0$ 和备择假设 $H_1$ 。我计算一个检验统计量 $T$ ,如果它落在预先设定的拒绝域,就拒绝 $H_0$ 。这里可能出现两类错误:
| 决策 \ 事实 | $H_0$ 为真 | $H_0$ 为假 |
|---|---|---|
| 接受 $H_0$ | 正确 | 第二类错误($\beta$ ) |
| 拒绝 $H_0$ | 第一类错误($\alpha$ ) | 正确(功效 $1 - \beta$ ) |
显著性水平 $\alpha$ 是第一类错误的概率,通常我会设为 0.05,并通过设计检验来控制它。功效 $1 - \beta$ 则取决于备择假设和样本量。
下图展示了两类错误之间的权衡:两条分布分别代表 $H_0$ 和 $H_1$ 下的情况,阈值 $c$ 决定了决策边界。把 $c$ 左移会减小 $\beta$ ,但会让 $\alpha$ 增大;反之亦然——除非增加数据量,否则没有免费午餐。

p 值 是在 $H_0$ 成立的前提下,观测到当前或更极端数据的概率。如果 $p < \alpha$ ,我就拒绝 $H_0$ 。
$$t = \frac{\bar X - \mu_0}{S / \sqrt{n}} \sim t_{n - 1}\quad (\text{在 } H_0 \text{ 下}). \tag{20}$$置信区间#
$$\bar X \pm z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}. \tag{21}$$用词很重要。这里的 $1 - \alpha$ 是针对流程的概率,而不是针对参数本身。如果我重复实验很多次,大约 $(1 - \alpha)$ 的置信区间会包含真实均值 $\mu$ 。但对任何一个具体的区间来说,要么包含 $\mu$ ,要么不包含,没有模糊地带。
下图直观地说明了这一点:同一数据生成过程下模拟了 50 个 95% 置信区间,按是否覆盖真实均值上色。

如果我想说“参数有 95% 概率落在这个区间里”,那就需要使用贝叶斯可信区间——后验分布的分位数。
信息论速览#
信息论是连接概率和学习目标的桥梁。其中有三个核心概念最为重要。

Bernoulli 分布的熵在 $p = 0.5$ 时达到最大值——此时公平硬币的结果完全不可预测。交叉熵损失 就是 $H(p, q) = -\sum p(x) \log q(x)$ ,用来衡量真实标签分布和模型预测分布之间的差异。
KL 散度 $D_{\mathrm{KL}}(P \,\|\, Q) = \sum_x p(x) \log \tfrac{p(x)}{q(x)}$ 衡量用 $Q$ 近似 $P$ 时丢失的信息量。它始终非负,只有当 $P = Q$ 时为零,并且具有不对称性——图中两个偏移的高斯分布清楚地展示了 $D_{\mathrm{KL}}(P \| Q) \neq D_{\mathrm{KL}}(Q \| P)$ 。变分推断和 KL 正则化策略都依赖于这种不对称性。
互信息 $I(X; Y) = D_{\mathrm{KL}}\bigl(P(X, Y) \,\|\, P(X) P(Y)\bigr)$ 衡量两个变量之间的依赖程度。对于二元高斯分布,互信息可以表示为 $I(X; Y) = -\tfrac{1}{2} \log(1 - \rho^2)$ 。当 $\rho = 0$ 时,变量独立;当 $|\rho| \to 1$ 时,互信息趋于无穷。互信息将相关性推广到了任意(包括非线性)的依赖关系。
练习题#
练习 1 (基率谬误): 某种疾病的患病率为 0.1%,检测的灵敏度为 99%,特异度为 95%。如果检测结果为阳性,实际患病的概率是多少?
$$P(D \mid +) = \frac{0.99 \times 0.001}{0.99 \times 0.001 + 0.05 \times 0.999} \approx 0.0194.$$大约只有 2%。低基率的影响占主导地位。这就是为什么针对罕见病的筛查测试需要极高的特异度才能真正有用。
练习 2 (均匀分布的 MLE)。 $X_i \sim \mathrm{Uniform}(0, \theta)$ ,求最大似然估计(MLE)。
解答。似然函数为 $L(\theta) = \theta^{-n}$ (当 $\theta \ge X_{(n)}$ ),否则为 0。因此,$\hat\theta_{\mathrm{MLE}} = X_{(n)} = \max_i X_i$ 。这个估计是有偏的:$\mathbb{E}[X_{(n)}] = \tfrac{n}{n+1}\theta$ 。无偏修正为 $\tfrac{n+1}{n} X_{(n)}$ 。
练习 3 (CLT 的应用)。 螺丝长度均值为 $\mu = 10$ mm,标准差为 $\sigma = 0.2$ mm。抽取 $n = 100$ 根螺丝,求 $P(9.96 \le \bar{X} \le 10.04)$ 。
解答。根据中心极限定理(CLT),$\bar X \approx \mathcal N(10, 0.02^2)$ 。标准化后得到 $P(|Z| \le 2) \approx 0.9544$ 。
练习 4 (贝叶斯硬币): 先验分布为 $p \sim \mathrm{Beta}(2, 2)$ ,观测到 10 次投掷中有 7 次正面,求后验分布。
解答。利用共轭性,后验分布为 $p \mid D \sim \mathrm{Beta}(9, 5)$ 。后验均值为 $9/14 \approx 0.643$ 。先验将极大似然估计(MLE)的 0.7 拉向了 0.5。
练习 5 (假设检验): 工厂声称产品重量均值为 $\mu = 500$ g。样本数据为 $n = 25$ 、$\bar x = 498$ 、$s = 10$ ,在显著性水平 $\alpha = 0.05$ 下进行检验。
解答。计算得到 $t = (498 - 500)/(10/5) = -1.0$ 。临界值为 $t_{0.025, 24} \approx 2.064$ 。由于 $|t| < 2.064$ ,无法拒绝 $H_0$ 。注意:不拒绝 $H_0$ 并不代表支持 $H_0$ ,更可能是因为 $n = 25$ 的样本量不足以检测出 2 g 的差异。
总结#
| 概念 | 核心公式 | ML 中的意义 |
|---|---|---|
| 贝叶斯定理 | $P(\theta \mid D) \propto P(D \mid \theta)\,P(\theta)$ | 贝叶斯机器学习的理论基础 |
| MLE | $\hat\theta = \arg\max \sum \log f(x_i; \theta)$ | 模型训练优化的目标 |
| MAP / 正则化 | MAP = MLE + log 先验 | 岭回归 ↔ Gaussian 先验,Lasso ↔ Laplace 先验 |
| 中心极限定理 (CLT) | $\bar X_n \approx \mathcal{N}(\mu, \sigma^2/n)$ | 置信区间、t 检验、MLE 的渐近性质 |
| 共轭先验 | Beta–Bernoulli、Gamma–Poisson、Gaussian–Gaussian | 后验分布有闭式解 |
| 交叉熵 | $-\sum p(x) \log q(x)$ | 分类任务的损失函数 |
| KL 散度 | $\sum p \log(p/q)$ | 变分推断、知识蒸馏、强化学习正则项 |
记住这五句话,其他内容都可以从中推导:
贝叶斯更新信念(后验 ∝ 似然 × 先验)。
大数定律说明均值会收敛。
中心极限定理指出它收敛到高斯分布。
MLE 在大样本下效率最高。
MAP 是加了正则化的 MLE。
下一步#
概率告诉我"如果模型是这样的,数据应该长什么样"。但反过来——给定数据,怎么找到使似然最大的参数——是一个优化问题。下一章是凸优化。
我之所以把凸优化放在所有具体算法之前,是因为线性回归、岭回归、Lasso、逻辑回归、SVM、Logistic 损失,全都是凸优化问题。凸性给了一个非常硬的承诺:局部最优等于全局最优,梯度下降一定收敛,对偶有强对偶性。后续每次我写"求解"两个字,背后跑的都是某种凸优化算法。下一章我会把这些工具——梯度下降、牛顿法、对偶、KKT、ADMM——铺成一张图,把每个工具放到它最适合的算法旁边。
参考文献#
- Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.
- Wasserman, L. (2004). All of Statistics. Springer.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
- Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
机器学习数学推导 20 篇
- 01 机器学习数学推导(一):绪论与数学基础
- 02 机器学习数学推导(二):线性代数与矩阵论
- 03 机器学习数学推导(三):概率论与统计推断 当前
- 04 机器学习数学推导(四):凸优化理论
- 05 机器学习数学推导(五):线性回归
- 06 机器学习数学推导(六):逻辑回归与分类
- 07 机器学习数学推导(七):决策树
- 08 机器学习数学推导(八):支持向量机
- 09 机器学习数学推导(九):朴素贝叶斯
- 10 机器学习数学推导(十):半朴素贝叶斯与贝叶斯网络
- 11 机器学习数学推导(十一):集成学习
- 12 机器学习数学推导(十二):XGBoost 与 LightGBM
- 13 机器学习数学推导(十三):EM 算法与 GMM
- 14 机器学习数学推导(十四):变分推断与变分 EM
- 15 机器学习数学推导(十五):隐马尔可夫模型
- 16 机器学习数学推导(十六):条件随机场
- 17 机器学习数学推导(十七):降维与主成分分析
- 18 机器学习数学推导(十八):聚类算法
- 19 机器学习数学推导(十九):神经网络与反向传播
- 20 机器学习数学推导(二十):正则化与模型选择