Optimization-Theory on Chen Kai Blog

优化理论（十二）：离散与全局优化

Fri, 30 Sep 2022 09:00:00 +0000

本系列的前十一篇文章聚焦于连续凸优化问题（或非凸问题的凸松弛形式）。而本文作为收官之作，将直面两类更具挑战性的问题：

离散优化：变量取整数值或组合值。可行域是由有限个（但数量呈指数级增长）点构成的集合。线性与凸优化工具不再直接适用——在整数格点上无法定义导数。
全局非凸优化：变量为连续型，但目标函数存在大量局部极小值，而我们追求的是全局最小值。Newton 法、L-BFGS 等方法仅能收敛至局部极小点。

这两类问题共享一个关键特征：在最坏情况下，任何可证明最优性的算法都具有指数时间复杂度。实践中，我们依赖两类策略应对：（a）借助智能剪枝机制（如分支定界）的精确算法；（b）可在多项式时间内找到高质量（未必最优）解的启发式算法。

优化理论（十一）：非凸优化与鞍点逃逸

Thu, 29 Sep 2022 09:00:00 +0000

对于非凸函数 $$f$$ ，梯度下降法（GD）没有全局收敛保证。我们最多只能说 $\nabla f(x_t) \to 0$ ——即算法会收敛到一个平稳点（stationary point），而该点可能是局部极小值、鞍点，甚至是局部极大值。本文要探讨的问题是：在什么条件下，我们能得出更强的结论？

优化理论（十）：随机优化与方差缩减

Tue, 27 Sep 2022 09:00:00 +0000

随机梯度下降（SGD）每步只采样单个分量梯度，计算代价远低于全梯度方法——但噪声的代价是什么？能否在保持随机采样优势的同时获得确定性方法的快速收敛？本文从「噪声预算」视角出发，量化这一权衡，并推导解决方案。

优化理论（九）：内点法与自和谐障碍函数

Mon, 26 Sep 2022 09:00:00 +0000

1984 年，Karmarkar 证明了线性规划（LP）不仅在理论上（椭球法早已在纸面上实现这一点），更在实际中可于多项式时间内求解。他的内点法始终停留在可行多面体内部，并以 $$O(n L)$$ 次迭代收敛，远优于单纯形法的指数级最坏时间复杂度。短短十年之内，Nesterov 与 Nemirovski 利用自和谐障碍函数（self-concordant barrier）框架，将该思想推广至所有凸规划问题。其标志性成果——对 $$n$$ 维问题仅需 $O(\sqrt{n} \log(1/\epsilon))$ 次牛顿迭代——至今仍是中等规模凸优化的黄金标准。

优化理论（八）：Lagrangian 对偶与 KKT 条件

Sat, 24 Sep 2022 09:00:00 +0000

约束优化中最具深远意义的思想是：约束具有价格。拉格朗日函数通过为每个不等式约束赋予一个非负乘子、为每个等式约束赋予一个自由（无符号限制）乘子，将带约束的问题转化为无约束问题。由此得到的无约束问题可能更易求解（如支持向量机 SVM 的对偶问题），也可能提供一个可验证的下界（如线性规划 LP 对偶性用于整数规划的可行性认证）。

优化理论（七）：二阶方法

Thu, 22 Sep 2022 09:00:00 +0000

一阶方法在达到 $\epsilon$ -精度时，迭代次数的上界为 $O(\sqrt{\kappa})$ （见第 05 篇文章）。二阶方法通过引入曲率信息突破这一瓶颈：牛顿法具有二次局部收敛性——每步迭代使有效数字位数翻倍；而拟牛顿法在不显式计算 Hessian 矩阵的前提下，仍能保持大部分收敛速度。

优化理论（六）：复合优化与近端方法

Wed, 21 Sep 2022 09:00:00 +0000

当目标函数包含不可导项（如稀疏正则、TV 正则或约束集的指示函数），又或者约束难以直接处理时，“直接上梯度下降”往往会卡住——要么在不可导点处没有梯度可用，要么每一步都破坏可行性。近端算子（proximal operator） 提供了一种精巧而优美的解决方案：把每次更新理解为“先对光滑部分走一步，再通过一个带二次惩罚的小规模优化，将当前点拉回具有特定结构的解空间”。

优化理论（五）：Nesterov 之外的加速

Tue, 20 Sep 2022 09:00:00 +0000

文章 02 介绍了 Nesterov 加速，并展示了它将每次迭代的复杂度从 $\kappa$ 改进到 $\sqrt{\kappa}$ 。本文探讨更深层次的问题：

为什么是 $\sqrt{\kappa}$ 而不是更快？ 我们证明了一个匹配的下界——没有任何一阶方法能做得更好。
Nesterov 是唯一的方式吗？ Polyak 的 Heavy-Ball 方法通过完全不同的更新规则达到了相同的速率。
我们能加速任意求解器吗？ Catalyst 框架通过包装一个黑盒优化器来获得加速速率，代价是求解一个正则化的子问题。

统一的工具是一个 Lyapunov 势函数（Lyapunov potential） —— 一种非负量，算法在每一步都会使其减小。Nesterov 和 Heavy-Ball 都有 Lyapunov 证明，而下界本质上说明了 Lyapunov 减小的速度不可能更快。

优化理论（四）：学习率与调度策略

Sun, 18 Sep 2022 09:00:00 +0000

模型崩溃了，你把学习率减半——模型终于能训练了，但速度慢得惊人；再减半，损失几乎不再下降，曲线趋于平缓。这种场景是不是很熟？在所有可调的超参数里，学习率（learning rate, LR）是最容易决定训练成败的那一个——它直接决定了模型是顺利收敛、进展极其缓慢，还是迅速发散。

优化理论（三）：梯度下降族——从 SGD 到 AdamW

Fri, 16 Sep 2022 09:00:00 +0000

为什么“调学习率是一门艺术”成了 ResNet 的梗，而每篇现代 LLM 论文却只是简单写下 “AdamW, $\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$ ” 就翻篇了？这并非偶然——这是 三十余年优化器演化的终点。

优化理论（二）：光滑性、强凸性与 Nesterov 加速

Thu, 15 Sep 2022 09:00:00 +0000

大量关于优化器的“民间智慧”其实可以归结为三个核心概念：

梯度有多陡？ Lipschitz 光滑性（ $$L$$ -smoothness）限制了步长上限。
底部有多尖锐？ $\mu$ -强凸性决定了收敛速率，并保证最小值点唯一。
能否在不牺牲稳定性的情况下更快到达？ Nesterov 加速和自适应重启将每条件数的代价从 $\kappa$ 降至 $\sqrt{\kappa}$ 。

本文将这三个概念串成一条主线：用最少的不等式建立几何直觉，证明关键定理，最后通过一个最小二乘实验，让 GD、Heavy Ball 和 Nesterov 正面交锋。目标不是堆砌公式——而是让你面对新问题时，能立刻回答：“该用多大步长？收敛速率是多少？加速是否值得？”

优化理论（一）：凸分析基础

Wed, 14 Sep 2022 09:00:00 +0000

本文是本系列其余所有内容的基石。我们后续将证明的几乎所有结论——梯度下降法的收敛速率、拉格朗日对偶性、近端算子（proximal operator），乃至随机优化方法的分析——都依赖于关于凸集与凸函数的一小套基本事实。本文从零开始，逐一推导全部结论。