Tagged

ML

Jul 5, 2025 Standalone 16 min read

近端算子:从 Moreau 包络到 ISTA/FISTA 与 ADMM

系统讲解近端算子的理论与应用:凸分析基础、Moreau 包络、常见近端闭式解,以及 ISTA/FISTA、ADMM 等算法中的实际用法。

Dec 27, 2024 Standalone 13 min read

核方法:从理论到实战 (RKHS、常见核函数与超参数调优)

理解核技巧、RKHS 理论与实用核函数选择。涵盖 RBF、多项式、Matern、周期核,含 sklearn 代码与调优流程图。

Jul 15, 2024 Standalone 11 min read

矩阵低秩近似与伪逆:从 SVD 到正则化

从最小二乘视角讲解 Moore-Penrose 伪逆的定义、Penrose 四条件、SVD 计算、截断奇异值与正则化,以及在机器学习中的落地应用。

Jun 5, 2024 Standalone 11 min read

变分自编码器 (VAE):从直觉到实现与调试

从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE,以及完整的训练流水线。

Jan 22, 2024 Standalone 14 min read

重参数化技巧与 Gumbel-Softmax 详解

讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现:为什么梯度能穿过采样节点,温度参数如何权衡偏差-方差,以及离散变量端到端训练的常见坑。

Feb 11, 2023 Standalone 11 min read

Lipschitz 连续性、强凸性与加速梯度下降

用三个核心概念理清优化直觉:Lipschitz 光滑性决定步长上限,强凸性决定收敛速度与解的唯一性,Nesterov 加速在不牺牲稳定性的前提下加速到达。含关键定理证明与最小二乘实验对比。

Dec 16, 2022 Standalone 10 min read

优化算法的演进:从梯度下降到 Adam(再到 2025 之后)

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛点?为什么大模型几乎都在用 AdamW?以及 2023 年之后我们究竟走到了哪里。