ML on Chen Kai Blog

重参数化技巧与 Gumbel-Softmax 详解

Wed, 30 Jul 2025 09:00:00 +0000

一旦模型中引入采样操作，训练便会立即面临一个关键难题：梯度如何流经随机节点

重参数化（reparameterization）给出的答案非常直接——把 $z\sim p_\theta(z)$ 改写成 $z=g_\theta(\epsilon)$ ，把随机性隔离到与参数无关的噪声 $\epsilon$ 里，于是反向传播可以顺着 $g_\theta$ 走下去。麻烦在于离散变量： $\arg\max$ 一类操作不可导，梯度会断掉。Gumbel-Softmax（也叫 Concrete 分布）用“带温度的 softmax + Gumbel 噪声”把离散采样变成可微近似，让你在保留离散结构的同时仍能端到端训练。

矩阵低秩近似与伪逆：从 SVD 到正则化

Mon, 28 Jul 2025 09:00:00 +0000

真实数据里的矩阵几乎从不“方+满秩”：特征相关、样本不足、噪声放大病态——求逆这件事要么不存在，要么不稳定。伪逆（Moore-Penrose inverse）把“逆”的直觉延续下去：它不要求方程组有精确解，而是把“解”重新定义为最小二乘解（多解时再选最小范数那一个）。本文从最小二乘视角给出伪逆的定义与四条 Penrose 条件，再用 SVD 把它的计算与低秩近似绑在一起，最后看截断奇异值如何让解更稳、什么时候必须正则化、以及这些结论在 PCA、推荐系统、 LoRA 中如何落地。

变分自编码器 (VAE)：从直觉到实现与调试

Tue, 27 Jun 2023 09:00:00 +0000

普通自编码器仅能压缩与重建，而变分自编码器（VAE）则具备生成能力——它学习到一个平滑且结构化的潜在空间，可以从中采样生成全新数据。将编码器从“输出一个向量”改为“输出一个分布”，这一步骤使模型从一个花哨的压缩器升级为带可优化似然下界的生成模型。

优化理论（十一）：非凸优化与鞍点逃逸

Thu, 29 Sep 2022 09:00:00 +0000

对于非凸函数 $$f$$ ，梯度下降法（GD）没有全局收敛保证。我们最多只能说 $\nabla f(x_t) \to 0$ ——即算法会收敛到一个平稳点（stationary point），而该点可能是局部极小值、鞍点，甚至是局部极大值。本文要探讨的问题是：在什么条件下，我们能得出更强的结论？

优化理论（十）：随机优化与方差缩减

Tue, 27 Sep 2022 09:00:00 +0000

随机梯度下降（SGD）每步只采样单个分量梯度，计算代价远低于全梯度方法——但噪声的代价是什么？能否在保持随机采样优势的同时获得确定性方法的快速收敛？本文从「噪声预算」视角出发，量化这一权衡，并推导解决方案。

优化理论（九）：内点法与自和谐障碍函数

Mon, 26 Sep 2022 09:00:00 +0000

1984 年，Karmarkar 证明了线性规划（LP）不仅在理论上（椭球法早已在纸面上实现这一点），更在实际中可于多项式时间内求解。他的内点法始终停留在可行多面体内部，并以 $$O(n L)$$ 次迭代收敛，远优于单纯形法的指数级最坏时间复杂度。短短十年之内，Nesterov 与 Nemirovski 利用自和谐障碍函数（self-concordant barrier）框架，将该思想推广至所有凸规划问题。其标志性成果——对 $$n$$ 维问题仅需 $O(\sqrt{n} \log(1/\epsilon))$ 次牛顿迭代——至今仍是中等规模凸优化的黄金标准。

优化理论（八）：Lagrangian 对偶与 KKT 条件

Sat, 24 Sep 2022 09:00:00 +0000

约束优化中最具深远意义的思想是：约束具有价格。拉格朗日函数通过为每个不等式约束赋予一个非负乘子、为每个等式约束赋予一个自由（无符号限制）乘子，将带约束的问题转化为无约束问题。由此得到的无约束问题可能更易求解（如支持向量机 SVM 的对偶问题），也可能提供一个可验证的下界（如线性规划 LP 对偶性用于整数规划的可行性认证）。

优化理论（七）：二阶方法

Thu, 22 Sep 2022 09:00:00 +0000

一阶方法在达到 $\epsilon$ -精度时，迭代次数的上界为 $O(\sqrt{\kappa})$ （见第 05 篇文章）。二阶方法通过引入曲率信息突破这一瓶颈：牛顿法具有二次局部收敛性——每步迭代使有效数字位数翻倍；而拟牛顿法在不显式计算 Hessian 矩阵的前提下，仍能保持大部分收敛速度。

优化理论（六）：复合优化与近端方法

Wed, 21 Sep 2022 09:00:00 +0000

当目标函数包含不可导项（如稀疏正则、TV 正则或约束集的指示函数），又或者约束难以直接处理时，“直接上梯度下降”往往会卡住——要么在不可导点处没有梯度可用，要么每一步都破坏可行性。近端算子（proximal operator） 提供了一种精巧而优美的解决方案：把每次更新理解为“先对光滑部分走一步，再通过一个带二次惩罚的小规模优化，将当前点拉回具有特定结构的解空间”。

优化理论（五）：Nesterov 之外的加速

Tue, 20 Sep 2022 09:00:00 +0000

文章 02 介绍了 Nesterov 加速，并展示了它将每次迭代的复杂度从 $\kappa$ 改进到 $\sqrt{\kappa}$ 。本文探讨更深层次的问题：

为什么是 $\sqrt{\kappa}$ 而不是更快？ 我们证明了一个匹配的下界——没有任何一阶方法能做得更好。
Nesterov 是唯一的方式吗？ Polyak 的 Heavy-Ball 方法通过完全不同的更新规则达到了相同的速率。
我们能加速任意求解器吗？ Catalyst 框架通过包装一个黑盒优化器来获得加速速率，代价是求解一个正则化的子问题。

统一的工具是一个 Lyapunov 势函数（Lyapunov potential） —— 一种非负量，算法在每一步都会使其减小。Nesterov 和 Heavy-Ball 都有 Lyapunov 证明，而下界本质上说明了 Lyapunov 减小的速度不可能更快。

优化理论（三）：梯度下降族——从 SGD 到 AdamW

Fri, 16 Sep 2022 09:00:00 +0000

为什么“调学习率是一门艺术”成了 ResNet 的梗，而每篇现代 LLM 论文却只是简单写下 “AdamW, $\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$ ” 就翻篇了？这并非偶然——这是 三十余年优化器演化的终点。

优化理论（二）：光滑性、强凸性与 Nesterov 加速

Thu, 15 Sep 2022 09:00:00 +0000

大量关于优化器的“民间智慧”其实可以归结为三个核心概念：

梯度有多陡？ Lipschitz 光滑性（ $$L$$ -smoothness）限制了步长上限。
底部有多尖锐？ $\mu$ -强凸性决定了收敛速率，并保证最小值点唯一。
能否在不牺牲稳定性的情况下更快到达？ Nesterov 加速和自适应重启将每条件数的代价从 $\kappa$ 降至 $\sqrt{\kappa}$ 。

本文将这三个概念串成一条主线：用最少的不等式建立几何直觉，证明关键定理，最后通过一个最小二乘实验，让 GD、Heavy Ball 和 Nesterov 正面交锋。目标不是堆砌公式——而是让你面对新问题时，能立刻回答：“该用多大步长？收敛速率是多少？加速是否值得？”

优化理论（一）：凸分析基础

Wed, 14 Sep 2022 09:00:00 +0000

本文是本系列其余所有内容的基石。我们后续将证明的几乎所有结论——梯度下降法的收敛速率、拉格朗日对偶性、近端算子（proximal operator），乃至随机优化方法的分析——都依赖于关于凸集与凸函数的一小套基本事实。本文从零开始，逐一推导全部结论。

核方法（八）：深度核学习 vs 深度学习——选择指南与故障排查

Thu, 30 Dec 2021 09:00:00 +0000

2026 年了，为什么还要读核方法？Transformer 不是已经把整个 ML 栈吃掉了吗？是也不是。Transformer 吃掉了头条，核方法吃掉的是角落——只有 200 个样本的场景、必须给出校准误差棒的场景、物理学家需要知道是哪个基函数贡献了这次预测的场景。本系列的最终篇就是这份"角落工程师手册"：核方法什么时候真的能赢、出了问题怎么诊断、怎么把核挂在神经网络头顶上拿到两边的好处，以及为什么 NTK（Jacot et al., 2018）告诉我们深网在某个极限下其实就是一种核方法——两派的边界，到 2026 年比任何时候都更模糊。

核方法（七）：大规模核方法——Nystrom 近似与随机傅里叶特征

Fri, 24 Dec 2021 09:00:00 +0000

你想拿 RBF SVM 去跑一个百万规模的图像分类任务。Gram 矩阵是 $10^6 \times 10^6$ 的 double 数组，整整 8 TB。光是这一个数字——八个 TB 的内存，仅仅为了存那个核矩阵——就解释了为什么大部分在统计课上学过核方法的工程师，在真实生产环境里都默默不再碰它。核技巧用一次内积就送你一个无穷维特征空间；账单是在你有 $$n^2$$ 对数据时寄到。

核方法（六）：高斯过程——当核方法遇到贝叶斯推断

Sun, 19 Dec 2021 09:00:00 +0000

核岭回归给你一个数。喂进 $$x_*$$ ，它返回 $\hat{y}_* = 23.7$ 。完。但你接下来要用这个预测做事——安排发货、调整剂量、下注——光一个数字不够用。“明天 25 度"是一句话；“很可能 25 度，95% 的概率落在 22 到 28 之间"才是可以行动的信息。任何在不确定性下的决策都需要后一种。高斯过程是把核方法从"点预测器"升级到"分布预测器"最干净的路径，且不需要扔掉前五篇里任何一行核函数的代数。这一升级的代价仅仅是一次 Cholesky——同样的 $$O(n^3)$$ 、同样的 Gram 矩阵——却额外白送了后验协方差和边际似然两件相当昂贵的礼物。

核方法（五）：核 SVM、核 PCA 与核岭回归

Tue, 14 Dec 2021 09:00:00 +0000

你的特征只有二维，数据明明是一个圆环套一个圆环，而 LinearSVC 在 50% 准确率上瞪着你——一副"我真心觉得直线就是答案"的天真神情。你盯着散点图，又盯着模型，脑子后台终于冒出"核 SVM"三个字。改成 kernel='rbf'，准确率瞬间跳到 0.98，整个下午你都在琢磨：刚才那一手到底是什么魔法？为什么同样的招数还能让核 PCA 把瑞士卷展平，让核岭回归三行代码拟合一个正弦波？

核方法（四）：常见核函数族——RBF、Matern、多项式、周期与更多

Thu, 09 Dec 2021 09:00:00 +0000

你第一次在 sklearn 里写 SVC(kernel='rbf')，gamma 设了多少？'scale'？'auto'？滚动过那个默认值时你压根没看一眼。三个月后模型严重过拟合，Gram 矩阵看着像单位阵，你也不知道是哪个旋钮拧错了。大多数"核调参"的债，其实是选核的债——你为了错误的理由选了默认的核，再多 grid search 也救不回来。

核方法（三）：RKHS——核方法的理论灵魂

Sat, 04 Dec 2021 09:00:00 +0000

如果你曾在某节课上听到老师写下 “RKHS” 三个字母就感觉血压升高，那这篇文章是写给你的。RKHS 不是一个由三个吓人字母组成的秘密俱乐部——它就是一个函数空间。一旦你看清楚里面装的是什么东西，核方法就不再是魔法，而是你已经熟悉的那种线性代数。

核方法（二）：数学基础——正定核与 Mercer 定理

Mon, 29 Nov 2021 09:00:00 +0000

写核 SVM 的第一周，我自信地造了一个相似度函数 tanh(1.5 * x.dot(y) - 2.0)：对称、有界、看起来一切都很正常。然后 sklearn 给我吐了一句 ValueError: kernel matrix is not positive semidefinite，模型效果比瞎猜还差。

核方法（一）：为什么需要它——从线性算法的天花板说起

Wed, 24 Nov 2021 09:00:00 +0000

我第一次想把逻辑回归扔到一对交错的螺旋数据上时，整整一个下午都在折腾正则化系数、换求解器、归一化输入——一直觉得是哪里写错了。准确率始终徘徊在 50% 上下，跟掷硬币没区别。换句话说，模型什么都没学到。