机器学习数学推导(一):绪论与数学基础
机器为什么能从有限的数据中学到普适的规律?本章从第一性原理出发,系统推导学习理论的数学骨架——问题形式化、损失函数、PAC 框架、VC 维、偏差-方差分解与无免费午餐定理。
本章要做的事
2005 年,Google Research 在公开机器翻译评测中表明:一个仅靠双语语料训练的统计模型,可以击败语言学家精雕细琢数十年的规则系统。结论令人不安,却也极具数学美感——一个从未被告知语法的系统,只要数据足够多,就能把语法 “推” 出来。为什么?
这并不是工程上的某种巧合,而是一个定理。本章要做的事,就是从第一性原理出发,搭建那一部分使学习成为可能的数学:什么时候能学、需要多少数据、根本的极限在哪里。
读完之后,你应当能够:
- 把一个学习问题形式化成"在假设类上做的概率优化"。
- 对有限假设类,叙述并证明 PAC 可学习的样本复杂度。
- 用 VC 维把同样的论证推广到无限假设类(线性分类器、神经网络)。
- 把任意预测器的测试误差分解成偏差、方差、不可约噪声三部分。
- 通过 No Free Lunch 定理理解:任何成功的算法,都必然带着某种归纳偏置(inductive bias)。
前置知识:微积分(导数、积分、Taylor 展开)、初等概率(期望、方差、Bayes 公式、独立性)、以及阅读数学符号的耐心。不需要任何先修的"学习理论"。
1. 学习问题的轮廓
1.1 三大类问题
正式定义之前,先把"舞台"画出来。本系列遇到的所有问题,几乎都属于以下三类之一。

- 监督学习:给定形如 $(x, y)$ 的样本对,目标是从 $x$ 预测 $y$。分类($y$ 离散)和回归($y$ 连续)是两个标准实例。
- 无监督学习:只给输入 $x$,要求恢复结构——聚类、低维流形、密度估计——而无需任何外部标签。
- 强化学习:智能体在环境中主动选择动作,并观察标量奖励。数据由智能体自身的策略生成,因此统计分析比监督设定更微妙。
本章把理论建立在监督设定之上——奠基性结果(PAC、VC、偏差-方差)在那里最干净。同样的工具,经过些许调整后可以推广到另外两类。
1.2 数学形式化
设存在一个未知的联合分布 $\mathcal{D}$,定义在输入空间 $\mathcal{X}$ 与输出空间 $\mathcal{Y}$ 的乘积上。一个学习算法是这样一个过程:吃下从 $\mathcal{D}$ 中独立同分布抽取的有限样本 $S = \{(x_i, y_i)\}_{i=1}^m$,吐出一个假设 $h: \mathcal{X} \to \mathcal{Y}$。$h$ 的好坏由损失函数衡量。
定义 1(损失函数)。任意可测映射 $\ell: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_{\geq 0}$,把预测 $h(x)$ 与真值 $y$ 映射成非负惩罚 $\ell(h(x), y)$。
$$ L_{\mathcal{D}}(h) \;=\; \mathbb{E}_{(x,y)\sim \mathcal{D}}\bigl[\ell(h(x), y)\bigr]. \tag{1} $$这是我们真正在意的量:模型在与训练数据同分布的全新样本上的平均损失。
$$ L_S(h) \;=\; \frac{1}{m}\sum_{i=1}^{m} \ell(h(x_i), y_i). \tag{2} $$这是我们唯一能算出来的量。
统计学习的核心矛盾:我们优化的是 $L_S$,被打分的却是 $L_{\mathcal{D}}$。本章后面几乎所有定理,都是在刻画 $L_S(h)$ 与 $L_{\mathcal{D}}(h)$ 之间何时、以什么速率彼此接近。
1.3 监督学习的三要素
任何监督算法都由一个三元组 $(\mathcal{H}, \ell, \mathcal{A})$ 决定:
- 假设类 $\mathcal{H}$:算法被允许输出的函数集合。$\mathcal{H}$ 越大,表达力越强,但统计上越难驾驭。
- 损失 $\ell$:把"预测好坏"翻译成可优化的标量。
- 算法 $\mathcal{A}$:从样本到假设的映射,$\mathcal{A}: (\mathcal{X} \times \mathcal{Y})^m \to \mathcal{H}$。
贯穿全系列的两个范式:
- 经验风险最小化(ERM):$\;h_{\text{ERM}} = \arg\min_{h\in\mathcal{H}} L_S(h)$。
- 结构风险最小化(SRM):$\;h_{\text{SRM}} = \arg\min_{h\in\mathcal{H}} \bigl[L_S(h) + \Omega(h)\bigr]$,其中 $\Omega$ 惩罚复杂度。
ERM 是最自然的起点。SRM 才是实际工程里默认使用的方法——为什么需要 $\Omega$,等到偏差-方差分解之后就一目了然。
1.4 损失的选择:回归与分类的代理函数
损失的选择不只是"形式问题"。它会改变优化曲面、统计效率,乃至最优解的位置。

回归损失(残差 $r = y - h(x)$):
| 名称 | 表达式 | 性质 |
|---|---|---|
| 平方损失(MSE) | $r^2$ | 光滑、强凸,对离群点敏感。Bayes 最优预测器是 $\mathbb{E}[Y\mid X]$。 |
| 绝对损失(MAE) | $\lvert r\rvert$ | 鲁棒,但在 $r=0$ 处不光滑。Bayes 最优预测器是条件中位数。 |
| Huber | $\tfrac12 r^2$ 当 $\lvert r\rvert \leq \delta$,否则 $\delta(\lvert r\rvert - \tfrac{\delta}{2})$ | 近 0 时像 MSE,尾部像 MAE,兼顾光滑与鲁棒。 |
二分类损失($y \in \{-1, +1\}$,间隔 $m = y \cdot h(x)$):
| 名称 | 表达式 | 用于 |
|---|---|---|
| 0-1 损失 | $\mathbb{1}[m \leq 0]$ | 我们真正在意的量。直接最小化是 NP-hard。 |
| Hinge | $\max(0,\, 1 - m)$ | 支持向量机。0-1 的凸上界,次梯度稀疏。 |
| 对数 / 交叉熵 | $\log(1 + e^{-m})$ | 逻辑回归、神经分类器。光滑,输出可标定为概率。 |
| 指数损失 | $e^{-m}$ | AdaBoost。对错分样本最激进,对标签噪声敏感。 |
表中所有分类代理损失,都是 0-1 损失的凸上界且关于间隔单调不增。Bartlett、Jordan、McAuliffe(2006)证明:只要代理函数满足"分类一致性",最小化它在数据无限时收敛到 Bayes 最优分类器。
1.5 为什么需要理论:泛化间隙
把一个 100 次多项式拟合到 10 个有噪声的点上,可以做到 $L_S = 0$,却在任何新的 $x$ 上预测得一塌糊涂。$L_{\mathcal{D}}(h) - L_S(h)$ 的大小被称作泛化间隙(generalization gap),它的行为正是接下来两节要量化的对象。

左图是健康的情况:随训练样本增多,间隙逐渐缩小——这正是 PAC 学习要量化的现象。右图是过拟合:训练继续推进,但测试误差反而变大——这正是正则化、提前停止、偏差-方差权衡的用武之地。
学习理论给我们的工具是:
- 预测间隙何时会小;
- 用复杂度度量(基数、VC 维、Rademacher 复杂度)量化间隙;
- 通过模型选择和正则化控制间隙。
2. PAC 框架
2.1 “可学习"应该是什么意思
要谈"可学习”,必须先做三处让步:
- 不能要求完美预测器,只能要求与最优相差不超过 $\varepsilon$。
- 不能要求确定成功,只能要求以至少 $1 - \delta$ 的概率成功(概率取自训练样本的随机性)。
- 误差是相对真实分布 $\mathcal{D}$ 衡量的,不是相对训练集衡量的。
把这三点合在一起,就是 Probably Approximately Correct——Valiant 在 1984 年给出的形式化。
$$ \Pr_{S \sim \mathcal{D}^m}\!\bigl[\, L_{\mathcal{D}}(h_S) \;\leq\; \min_{h \in \mathcal{H}} L_{\mathcal{D}}(h) + \varepsilon \,\bigr] \;\geq\; 1 - \delta. \tag{3} $$函数 $m_{\mathcal{H}}(\varepsilon, \delta)$ 称为样本复杂度:在 $m_{\mathcal{H}}(\varepsilon, \delta)$ 个样本之内,我们就能以 $\geq 1 - \delta$ 的概率,得到一个泛化误差与 $\mathcal{H}$ 中最优解相差至多 $\varepsilon$ 的假设。
2.2 有限假设类、可实现情况
先看最简单的非平凡情形:$\mathcal{H}$ 有限,并且存在 $h^\star \in \mathcal{H}$ 满足 $L_{\mathcal{D}}(h^\star) = 0$(可实现假设)。损失取 0-1 损失。
$$ m \;\geq\; \frac{1}{\varepsilon}\Bigl(\ln |\mathcal{H}| + \ln \tfrac{1}{\delta}\Bigr), \tag{4} $$则以至少 $1 - \delta$ 的概率,所有 $L_S(h) = 0$ 的 $h \in \mathcal{H}$ 都满足 $L_{\mathcal{D}}(h) \leq \varepsilon$。特别地,ERM 算法是 $\mathcal{H}$ 的 PAC 学习算法。
证明。令 $\mathcal{H}_{\text{bad}} = \{h \in \mathcal{H} : L_{\mathcal{D}}(h) > \varepsilon\}$ 为坏假设集合。我们要界定的"坏事件"——“ERM 输出了一个坏假设”——包含在事件"存在某个坏假设在训练集上经验误差为 0"之中。
$$ \Pr_{S}\!\bigl[L_S(h) = 0\bigr] \;=\; \prod_{i=1}^{m} \Pr\!\bigl[h(x_i) = y_i\bigr] \;\leq\; (1 - \varepsilon)^m. \tag{5} $$$$ \Pr_{S}\!\bigl[\exists h \in \mathcal{H}_{\text{bad}} : L_S(h) = 0\bigr] \;\leq\; \sum_{h \in \mathcal{H}_{\text{bad}}} (1 - \varepsilon)^m \;\leq\; |\mathcal{H}|\,(1 - \varepsilon)^m. \tag{6} $$$$ |\mathcal{H}|\,(1 - \varepsilon)^m \;\leq\; |\mathcal{H}|\, e^{-\varepsilon m}. \tag{7} $$$$ |\mathcal{H}|\, e^{-\varepsilon m} \;\leq\; \delta \;\;\Longleftrightarrow\;\; m \;\geq\; \frac{1}{\varepsilon}\bigl(\ln |\mathcal{H}| + \ln \tfrac{1}{\delta}\bigr). \tag{8} $$当 $m$ 满足 (8) 时,坏事件概率不超过 $\delta$,其补正是定理结论。$\blacksquare$
逐项品读:
- $\ln |\mathcal{H}|$:假设类越大,需要的样本越多,但只是对数级。
- $\ln(1/\delta)$:把置信度提一个量级,只多付出 $\ln 10 \approx 2.3$ 个样本。
- $1/\varepsilon$:把精度提高一倍,样本翻一倍。线性于精度。
2.3 不可知(agnostic)情况
可实现假设过于理想。不可知 PAC 把它去掉:不再要求 $\mathcal{H}$ 中存在零误差假设,只要求与 $\mathcal{H}$ 中最优解 $h^\star$ 比拼。
$$ m \;\geq\; \frac{2}{\varepsilon^2}\Bigl(\ln |\mathcal{H}| + \ln \tfrac{2}{\delta}\Bigr) \tag{9} $$足以保证以至少 $1 - \delta$ 的概率有 $L_{\mathcal{D}}(h_{\text{ERM}}) \leq \min_{h \in \mathcal{H}} L_{\mathcal{D}}(h) + \varepsilon$。
$$ \Pr\!\bigl[\, |L_S(h) - L_{\mathcal{D}}(h)| > t \,\bigr] \;\leq\; 2 e^{-2 m t^2}. \tag{10} $$对 $\mathcal{H}$ 做联合界,再代入 $t = \varepsilon/2$,立即得到 (9)。
2.4 为什么是 $1/\varepsilon^2$,不是 $1/\varepsilon$?
从可实现到不可知,$\varepsilon$ 的指数从 1 跳到 2。代价从哪里来?
可实现情形我们只需剔除坏假设:单一反例就足以摧毁它,因此"无反例"事件的概率随 $\varepsilon m$ 指数衰减。
$$ \frac{\sigma}{\sqrt{m}} \;\lesssim\; \varepsilon \;\;\Longrightarrow\;\; m \;\gtrsim\; \frac{\sigma^2}{\varepsilon^2}. $$这是中心极限定理的指纹。把 $\varepsilon$ 改善 10 倍,要付 100 倍样本。两种状态的对比如下:

左图说明 $\ln|\mathcal{H}|$ 只是对数加性项:从 $|\mathcal{H}| = 10^3$ 跳到 $10^6$,所需样本不过翻一倍。右图说明放弃可实现假设的代价:在对数-对数坐标下,不可知曲线斜率为 $-2$,可实现曲线斜率为 $-1$。
3. VC 维:把复杂度度量推广到无限假设类
3.1 为何需要新度量
$\ln |\mathcal{H}|$ 在任何"实数取值"的模型上都崩塌:$\mathbb{R}^d$ 的线性分类器有不可数多个,$\ln|\mathcal{H}| = \infty$,定理 2 完全无效。我们需要一个有限的复杂度度量,仍能刻画统计容量。
正确的度量是组合而非势数的:它不数假设个数,而数一个类在固定样本集上能产生的不同标记数。
3.2 打散
$$ \bigl|\{(h(x_1), \ldots, h(x_m)) : h \in \mathcal{H}\}\bigr| \;=\; 2^m. \tag{11} $$直觉:打散等于"$\mathcal{H}$ 在这一组特定的点上能造出所有可能的二分图样",其表达力达到上限。
3.3 定义
$$ \mathrm{VCdim}(\mathcal{H}) \;=\; \sup\bigl\{\, m : \exists\, C \subseteq \mathcal{X},\; |C| = m,\; \mathcal{H}\text{ 打散 } C \,\bigr\}. \tag{12} $$若该上确界为 $\infty$,记 $\mathrm{VCdim}(\mathcal{H}) = \infty$。
两条不对称的证法:
- 存在性下界:要证 $\mathrm{VCdim}(\mathcal{H}) \geq d$,找到一组大小为 $d$ 的可打散点集即可。
- 普适性上界:要证 $\mathrm{VCdim}(\mathcal{H}) < d+1$,必须说明任何大小为 $d+1$ 的点集都不能被打散。
3.4 例:$\mathbb{R}^d$ 上的线性分类器
定理 3。仿射线性分类器 $\mathcal{H} = \{x \mapsto \mathrm{sign}(w^\top x + b) : w \in \mathbb{R}^d, b \in \mathbb{R}\}$ 的 VC 维为 $d + 1$。
证明。
$$ w \;=\; \sum_{i=1}^{d} y_i\, e_i, \qquad b \;=\; \tfrac12 y_0. \tag{13} $$此时 $w^\top 0 + b = b = \tfrac12 y_0$ 与 $y_0$ 同号;对 $i \geq 1$,$w^\top e_i + b = y_i + \tfrac12 y_0$ 的符号由 $y_i$ 决定($\tfrac12 y_0$ 项太小,无法翻转符号)。所有标记均可实现,$d+1$ 个点被打散。
$$ \sum_{i=1}^{d+2} a_i \tilde{x}_i \;=\; 0. \tag{14} $$$$ \underbrace{\sum_{i \in I^+} a_i (w^\top x_i + b)}_{>\,0} \;+\; \underbrace{\sum_{i \in I^-} a_i (w^\top x_i + b)}_{>\,0} \;=\; 0, $$因为 $i \in I^+$ 时两个因子都为正,$i \in I^-$ 时两个因子都为负(乘积仍为正)。“严格正项之和等于 0”——矛盾。$\blacksquare$
直觉与几何完全吻合:$\mathbb{R}^d$ 中的超平面有 $d+1$ 个自由参数,每个参数恰好"买得到"一个标记自由度。

左侧 8 个面板枚举了 2D 中三点的全部 $2^3 = 8$ 种标记,每种都能找到分离直线。右侧面板是经典的 XOR:4 个点呈对角分布时,没有一条直线能把 $+$ 与 $-$ 分开;进一步的计数论证可证 2D 中任何 4 点都不可被打散。所以 2D 线性分类器的 $\mathrm{VCdim} = 3$,与公式 $d + 1$ 吻合。
3.5 VC 维样本复杂度界
$$ m_{\mathcal{H}}(\varepsilon, \delta) \;=\; O\!\left(\frac{d + \ln(1/\delta)}{\varepsilon^2}\right). \tag{15} $$$$ \mathrm{VCdim}(\mathcal{H}) = d \;\;\Longrightarrow\;\; \Pi_{\mathcal{H}}(m) \;\leq\; \sum_{i=0}^{d} \binom{m}{i} \;\leq\; \left(\frac{e\,m}{d}\right)^d. \tag{16} $$只要 $m > d$,原本的指数 $2^m$ 立刻塌缩成多项式 $m^d$。把这条多项式增长率代入一致收敛论证(详见概率论一章),即得 (15)。
应用:$\mathbb{R}^{100}$ 中的线性分类器有 $\mathrm{VCdim} = 101$。要在不可知设定下达到 $\varepsilon = 0.05$、$\delta = 0.05$,所需样本量约为 $m \approx 10^5$——完全可承受。反之,VC 维为 $\infty$ 的类(例如全部可测函数)不是 PAC 可学习的,无论数据多少。
4. 偏差-方差分解
4.1 设置
即使一个类是 PAC 可学习的,某个具体学到的预测器,其测试误差也可分解成几个来源迥异的成分。这一分解,是实际做模型选择时的指南针。
固定平方损失,假设:
- 真函数 $f^\star: \mathcal{X} \to \mathbb{R}$。
- 观测 $y = f^\star(x) + \varepsilon$,其中 $\mathbb{E}[\varepsilon] = 0$,$\mathrm{Var}(\varepsilon) = \sigma^2$。
- 学习算法在样本 $S$ 上输出预测器 $\hat{f}_S$。
在固定测试点 $x$,对样本 $S$ 与噪声 $\varepsilon$ 同时取期望。
$$ \mathbb{E}_{S,\varepsilon}\!\Bigl[(\hat{f}_S(x) - y)^2\Bigr] \;=\; \underbrace{\bigl(\bar{f}(x) - f^\star(x)\bigr)^2}_{\textstyle\text{偏差}^2} \;+\; \underbrace{\mathbb{E}_S\!\bigl[(\hat{f}_S(x) - \bar{f}(x))^2\bigr]}_{\textstyle\text{方差}} \;+\; \underbrace{\sigma^2}_{\textstyle\text{噪声}}. \tag{17} $$4.2 证明
$$ \hat{f} - y \;=\; \underbrace{(\hat{f} - \bar{f})}_{A} \;+\; \underbrace{(\bar{f} - f^\star)}_{B} \;+\; \underbrace{(f^\star - y)}_{C}. \tag{18} $$$$ (\hat{f} - y)^2 \;=\; A^2 + B^2 + C^2 + 2AB + 2AC + 2BC. $$对 $S$ 与 $\varepsilon$ 取期望,三项交叉项全部为零:
- $\mathbb{E}_S[2AB] = 2B \cdot \mathbb{E}_S[\hat{f} - \bar{f}] = 2B \cdot 0 = 0$,因为 $\mathbb{E}_S[\hat{f}] = \bar{f}$。
- $\mathbb{E}_{S,\varepsilon}[2AC] = 2\,\mathbb{E}_S[A] \cdot \mathbb{E}_\varepsilon[C] = 0$,因为 $S \perp \varepsilon$ 且两期望均为 0。
- $\mathbb{E}_\varepsilon[2BC] = 2B \cdot \mathbb{E}_\varepsilon[C] = 0$,因为 $\mathbb{E}[\varepsilon] = 0$。
剩下 $\mathbb{E}_S[A^2] + B^2 + \mathbb{E}_\varepsilon[C^2]$,恰好是方差、偏差²、噪声。$\blacksquare$
4.3 三项的含义
| 项 | 含义 | 减小方法 |
|---|---|---|
| 偏差² | 平均预测器与真值的距离。症状:高偏差 = 欠拟合 | 更大的假设类、更好的特征、减弱正则化 |
| 方差 | 重新采样训练集时预测器的抖动程度。症状:高方差 = 过拟合 | 更多数据、更小的假设类、加正则化、做集成 |
| 噪声 | 给定 $x$ 时 $y$ 的不可约随机性。任何算法都消除不掉 | 没有——这是误差下界 |
随模型容量增长,三个力量的竞争如下:

总期望误差呈 U 型。最优点左侧偏差占主导,是欠拟合;右侧方差占主导,是过拟合。最低点正是你要找的工作点——找到它(一般靠交叉验证),就是模型选择这件事的全部。
4.4 一个数值小验证
设 $f^\star(x) = \sin(\pi x)$ 在 $[-1, 1]$ 上,$\sigma = 0.3$,$m = 20$,重复 100 次随机训练集:
| 模型 | 偏差² | 方差 | 噪声 | 总误差 |
|---|---|---|---|---|
| 1 次多项式 | 0.42 | 0.002 | 0.09 | 0.51 |
| 3 次多项式 | 0.05 | 0.02 | 0.09 | 0.16 |
| 9 次多项式 | 0.01 | 0.35 | 0.09 | 0.45 |
3 次多项式胜出,因为它是唯一同时把偏差与方差都压住的模型。注意噪声项在每行都相同——按定义如此。
4.5 诊断欠/过拟合
| 训练误差 | 验证误差 | 诊断 | 应对 |
|---|---|---|---|
| 低 | 低 | 健康 | 不用动,部署。 |
| 高 | 高 | 欠拟合 | 加特征、放大模型、训练更久、减弱正则化。 |
| 低 | 高 | 过拟合 | 加数据、缩小模型、正则化、提前停止、Dropout。 |
| 高 | 低 | 多半是数据泄漏或评测代码 bug | 审查数据划分。 |
5. No Free Lunch 定理
5.1 定理陈述
Wolpert(1996)与 Wolpert-Macready(1997)把工程师们隐约感觉到的事写成了精确的命题:没有放之四海皆准的最优算法。
$$ \frac{1}{|\mathcal{F}|} \sum_{f \in \mathcal{F}} \mathbb{E}_S\!\bigl[L_f(\mathcal{A}_1(S))\bigr] \;=\; \frac{1}{|\mathcal{F}|} \sum_{f \in \mathcal{F}} \mathbb{E}_S\!\bigl[L_f(\mathcal{A}_2(S))\bigr]. \tag{19} $$证明的核心很短。对任何未见过的 $x \notin S$,从 $\mathcal{F}$ 中均匀抽取 $f$ 时,$f(x)$ 是无偏的公平硬币:一半 $f$ 给 $f(x) = 0$,一半给 $f(x) = 1$。任何预测策略,在这一半上对、那一半上错,平均下来一律是 $\tfrac12$。
5.2 归纳偏置
既然没有算法能在所有问题上取胜,那么所有成功的算法都必然带着对世界的假设。这种假设有个名字——归纳偏置(inductive bias)。
| 归纳偏置 | 体现于 | 适合的问题 |
|---|---|---|
| 平滑性 | $k$-NN、核方法 | 物理量上的连续回归 |
| 线性性 | 线性/逻辑回归、线性 SVM | 关系大致线性、维度高样本少 |
| 稀疏性 | Lasso、弹性网 | 高维、相关特征少 |
| 组合性 / 层次结构 | 深度网络 | 视觉、语言,凡有"部分-整体"的领域 |
| 局部性 + 平移等变 | 卷积神经网络 | 图像、音频谱 |
| 序列结构 | RNN、Transformer | 语言、时间序列 |
| 置换不变 | 集合 / 图网络 | 集合、分子、社交网络 |
下图把三种归纳偏置作用在同一组训练数据上:

线性拟合欠拟合——偏置太强;随机 ReLU 特征过拟合——偏置太弱;4 次多项式恰好匹配真函数的结构。三者并无内在的对错,取决于你对 $f^\star$ 的信念。
5.3 NFL 为何不让学习理论失效
NFL 是对所有可能函数取平均。我们真正遇到的函数——物理定律、自然语言、自然图像——只活在"全部函数"的一个极薄、高度结构化的子流形上。在那个子流形上,某些归纳偏置以巨大优势碾压其他偏置。
实践中,NFL 对你的要求是四件事:
- 别再寻找万能算法,它不存在。
- 弄清你的问题到底有什么结构。
- 选择与之匹配的归纳偏置。
- 在你真正关心的问题类上评测,而非最坏情况上评测。
6. 代码:线性回归的实证 PAC 与偏差-方差
下面这段自包含的脚本,把本章的核心预测在一个简单的线性回归问题上跑一遍:(i) 在可实现状态下验证测试误差按 $1/m$ 衰减;(ii) 分别度量偏差²、方差、噪声,并验证它们之和等于总期望误差。
| |
应当观察到的现象:
- 测试误差大约按 $1/m$ 衰减——可实现 PAC 的预测;线性模型规范设定下平方损失等价于参数估计问题。
- 偏差² 几乎为 0——线性假设类包含了真函数。
- 方差按 $1/m$ 衰减——数据越多,斜率截距越稳定。
- 偏差² + 方差 + $\sigma^2$ 与测试 MSE 在 Monte-Carlo 误差范围内吻合——验证了定理 5。
7. Q&A
Q1. ERM 既然这么简单,为什么不直接用?
因为 $L_S$ 与 $L_{\mathcal{D}}$ 在足够大的 $\mathcal{H}$ 上可以任意背离。“查表"假设——$h(x_i) = y_i$ 对 $i \leq m$,其余为 0——满足 $L_S = 0$,但 $L_{\mathcal{D}}$ 接近随机。PAC 理论告诉我们在什么条件下 $|L_S - L_{\mathcal{D}}|$ 小;结构风险最小化告诉我们如何用这些条件自适应地选择 $\mathcal{H}$。
Q2. 不可数的假设类,为什么 VC 维可以是有限的?
VC 维不数假设——它数有限点集上的可区分行为数。所有 2D 线性分类器构成一个不可数集,但在固定测试点上输出符号相同的两个分类器,对我们而言无法区分;而在 $m$ 个点上的可区分行为数至多 $\binom{m}{0} + \binom{m}{1} + \binom{m}{2} \leq O(m^2)$。Sauer-Shelah 引理把这一组合事实,转换成一个有限的复杂度上界。
Q3. 训练误差为 0 永远是坏事吗?
不一定。正确的问题是:你的模型类是否大到能记忆噪声?如果数据基本无噪、且类中包含真函数(比如用线性模型拟合线性数据),$L_S = 0$ 是正确的结果。如果 $\sigma^2 > 0$ 且类大到能内插,$L_S = 0$ 就是一个红色警报。一个有用的拇指法则:当 $m / \mathrm{VCdim}(\mathcal{H}) < 10$ 时,对低训练误差保持怀疑。
Q4. 常见模型的 VC 维分别是多少?
| 模型 | VC 维 |
|---|---|
| $\mathbb{R}^d$ 上的线性分类器 | $d + 1$ |
| $\mathbb{R}^d$ 上 $k$ 次多项式 | $\binom{d+k}{k}$ |
| $\mathbb{R}^d$ 上轴对齐矩形 | $2d$ |
| $W$ 个权重的 sigmoid 神经网 | $\Theta(W^2)$(Karpinski-Macintyre) |
| $W$ 个权重、$L$ 层的分段线性网络 | $\Theta(W L \log W)$(Bartlett 等) |
| 深度为 $D$ 的决策树 | $\Theta(2^D)$ |
| 全部可测函数 | $\infty$(不可 PAC 学习) |
对现代深度网络,VC 界很松——网络能完美拟合随机标签(说明 VC 巨大),却仍能泛化。解释这一点是当前研究热点(PAC-Bayes、间隔界、神经正切核分析、隐式正则化理论)。
Q5. Hoeffding 不等式从哪里来?
它是对有界独立随机变量之和的次高斯(sub-Gaussian)集中不等式。我们将在第 3 章从矩生成函数出发干净地推导它,并把它作为本系列后续几乎所有一致收敛论证的主力工具。
总结
| 概念 | 关键公式 | 一句话直觉 |
|---|---|---|
| PAC 样本复杂度(可实现,有限) | $m \geq \tfrac{1}{\varepsilon}(\ln | \mathcal{H} |
| PAC 样本复杂度(不可知,有限) | $m \geq \tfrac{2}{\varepsilon^2}(\ln | \mathcal{H} |
| VC 样本复杂度 | $m = O\!\bigl(\tfrac{d + \ln(1/\delta)}{\varepsilon^2}\bigr)$ | $\mathrm{VCdim}$ 替代了 $\ln |
| Sauer-Shelah | $\Pi_{\mathcal{H}}(m) \leq (em/d)^d$ | $2^m$ 在 VC 有限后塌缩成 $m^d$ |
| 偏差-方差 | 测试误差 $=$ 偏差² $+$ 方差 $+\, \sigma^2$ | 三个独立来源 |
| No Free Lunch | $\sum_f L_f(\mathcal{A}_1) = \sum_f L_f(\mathcal{A}_2)$ | 在所有问题上平均,所有算法打平 |
任何新项目的实战清单:
- 把训练误差与验证误差作为 $m$ 的函数画出来——你处在哪个状态?
- 估计 $\mathrm{VCdim}(\mathcal{H})$ 或有效参数数;目标是 $m / \mathrm{VCdim} \gtrsim 10$。
- 用交叉验证选复杂度,不要凭训练曲线眼测。
- 默认就用 SRM(带正则化),不要把正则化当事后补丁。
- 选择归纳偏置匹配问题结构的 $\mathcal{H}$:图像选局部性、基因组选稀疏性、物理选平滑性。
参考文献
- Valiant, L. G. (1984). A theory of the learnable. Communications of the ACM, 27(11), 1134-1142.
- Vapnik, V. N. & Chervonenkis, A. Y. (1971). On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability & Its Applications, 16(2), 264-280.
- Blumer, A., Ehrenfeucht, A., Haussler, D. & Warmuth, M. K. (1989). Learnability and the Vapnik-Chervonenkis dimension. Journal of the ACM, 36(4), 929-965.
- Bartlett, P. L., Jordan, M. I. & McAuliffe, J. D. (2006). Convexity, classification, and risk bounds. Journal of the American Statistical Association, 101(473), 138-156.
- Bartlett, P. L., Harvey, N., Liaw, C. & Mehrabian, A. (2019). Nearly-tight VC-dimension bounds for piecewise linear neural networks. Journal of Machine Learning Research, 20, 1-17.
- Wolpert, D. H. (1996). The lack of a priori distinctions between learning algorithms. Neural Computation, 8(7), 1341-1390.
- Wolpert, D. H. & Macready, W. G. (1997). No free lunch theorems for optimization. IEEE Transactions on Evolutionary Computation, 1(1), 67-82.
- Shalev-Shwartz, S. & Ben-David, S. (2014). Understanding Machine Learning: From Theory to Algorithms. Cambridge University Press.
- Mohri, M., Rostamizadeh, A. & Talwalkar, A. (2018). Foundations of Machine Learning (2nd ed.). MIT Press.
- Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. (2017). Understanding deep learning requires rethinking generalization. ICLR.
- 周志华 (2016). 机器学习. 清华大学出版社.
- 李航 (2012). 统计学习方法. 清华大学出版社.
系列导航
| 篇 | 主题 | 链接 |
|---|---|---|
| 1 | 绪论与数学基础 | 当前位置 |
| 2 | 线性代数与矩阵论 | 下一篇 –> |
| 3 | 概率论与统计推断 | 前往 –> |
| 4 | 凸优化理论 | 前往 –> |
| 5 | 线性回归 | 前往 –> |