Tagged
Optimization
近端算子:从 Moreau 包络到 ISTA/FISTA 与 ADMM
系统讲解近端算子的理论与应用:凸分析基础、Moreau 包络、常见近端闭式解,以及 ISTA/FISTA、ADMM 等算法中的实际用法。
核方法:从理论到实战 (RKHS、常见核函数与超参数调优)
理解核技巧、RKHS 理论与实用核函数选择。涵盖 RBF、多项式、Matern、周期核,含 sklearn 代码与调优流程图。
矩阵低秩近似与伪逆:从 SVD 到正则化
从最小二乘视角讲解 Moore-Penrose 伪逆的定义、Penrose 四条件、SVD 计算、截断奇异值与正则化,以及在机器学习中的落地应用。
Lipschitz 连续性、强凸性与加速梯度下降
用三个核心概念理清优化直觉:Lipschitz 光滑性决定步长上限,强凸性决定收敛速度与解的唯一性,Nesterov 加速在不牺牲稳定性的前提下加速到达。含关键定理证明与最小二乘实验对比。
优化算法的演进:从梯度下降到 Adam(再到 2025 之后)
一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛点?为什么大模型几乎都在用 AdamW?以及 2023 年之后我们究竟走到了哪里。