
优化理论
从凸分析到非凸景观——一阶、二阶、约束、随机与组合优化的完整证明。
01优化理论(一):凸分析基础
解锁本系列后续内容的几何与分析工具包:凸集、凸函数、共轭(Fenchel)变换、次梯度,以及示性函数/支撑函数对;包含詹森不等式、投影定理及基本范数次微分的完整证明。
02优化理论(二):光滑性、强凸性与 Nesterov 加速
用三个核心概念理清优化直觉:Lipschitz 光滑性决定步长上限,强凸性决定收敛速度与解的唯一性,Nesterov 加速在不牺牲稳定性的前提下加速到达。含关键定理证明与最小二乘实验对比。
03优化理论(三):梯度下降族——从 SGD 到 AdamW
一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛 …
04优化理论(四):学习率与调度策略
从一维抛物线讲到 LLM 预训练配方,覆盖 cosine/WSD/Schedule-Free、LR range test、warmup 新理论与诊断 checklist。
05优化理论(五):Nesterov 之外的加速
一阶优化方法“最优”究竟意味着什么?我们证明了与 Nesterov 速率相匹配的紧致下界,将 Polyak 重球法导出为其连续时间极限,构建了统一的 Lyapunov 分析框架以同时涵盖二者,并揭示 Catalyst 元算法如何将任意求解器 …
06优化理论(六):复合优化与近端方法
系统讲解近端算子的理论与应用:凸分析基础、Moreau 包络、常见近端闭式解,以及 ISTA/FISTA、ADMM 等算法中的实际用法。
07优化理论(七):二阶方法
二阶方法通过利用曲率突破 $\sqrt{\kappa}$ 瓶颈;我们证明牛顿法的局部二次收敛性,从割线条件与低秩更新导出 BFGS,详解适用于中等规模机器学习的 L-BFGS 双循环递推,分析带狗腿法求解的信任域子问题。
08优化理论(八):Lagrangian 对偶与 KKT 条件
约束如何转化为价格:拉格朗日函数、弱对偶性、保证强对偶性的 Slater 条件、KKT 条件作为最优性的充要条件,以及为何 SVM 的对偶问题远小于其原始问题;包含完整证明与鞍点表征。
09优化理论(九):内点法与自和谐障碍函数
内点法何以成为凸规划默认求解器:以对数障碍函数替代不等式约束,参数化中心路径,并应用牛顿法;涵盖自协调性理论及著名的 $O(\sqrt{n} \log(1/\varepsilon))$ 迭代复杂度证明。
10优化理论(十):随机优化与方差缩减
SGD 为何有效?我们基于梯度噪声预算证明了其在凸函数下的 $O(1/\sqrt{T})$ 收敛率与强凸函数下的 $O(1/(\mu T))$ 收敛率;进而介绍方差缩减方法——SVRG、SAGA、Katyusha,它们利用随机样本达到全梯度 …
11优化理论(十一):非凸优化与鞍点逃逸
为何 SGD 能在非凸景观下有效训练神经网络?我们证明扰动梯度下降可在多项式时间内逃离严格鞍点,在 Polyak-Łojasiewicz 条件下推导其收敛性,并综述深度学习损失曲面的已知理论结果——过参数化、神经正切核(NTK)及对平坦极小 …
12优化理论(十二):离散与全局优化
当变量为整数或问题为具有多个局部极小值区域的非凸问题时,经典凸优化方法失效;本文综述了有效方法:基于分支定界的整数规划、线性规划松弛间隙分析、启发式算法分类(粒子群优化、遗传算法、螺旋优化、模拟退火),以及螺旋优化算法在约束均值-方差投资组 …