Tagged

Algorithm

Jul 5, 2025 Standalone 16 min read

近端算子：从 Moreau 包络到 ISTA/FISTA 与 ADMM

系统讲解近端算子的理论与应用：凸分析基础、Moreau 包络、常见近端闭式解，以及 ISTA/FISTA、ADMM 等算法中的实际用法。

Jun 3, 2025 Standalone 11 min read

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码：为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳，以及如何为新模型选型。

Dec 27, 2024 Standalone 13 min read

核方法：从理论到实战 (RKHS、常见核函数与超参数调优)

理解核技巧、RKHS 理论与实用核函数选择。涵盖 RBF、多项式、Matern、周期核，含 sklearn 代码与调优流程图。

Jul 15, 2024 Standalone 11 min read

矩阵低秩近似与伪逆：从 SVD 到正则化

从最小二乘视角讲解 Moore-Penrose 伪逆的定义、Penrose 四条件、SVD 计算、截断奇异值与正则化，以及在机器学习中的落地应用。

Jun 5, 2024 Standalone 11 min read

变分自编码器 (VAE)：从直觉到实现与调试

从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE，以及完整的训练流水线。

Jan 22, 2024 Standalone 14 min read

重参数化技巧与 Gumbel-Softmax 详解

讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现：为什么梯度能穿过采样节点，温度参数如何权衡偏差-方差，以及离散变量端到端训练的常见坑。

Feb 11, 2023 Standalone 11 min read

Lipschitz 连续性、强凸性与加速梯度下降

用三个核心概念理清优化直觉：Lipschitz 光滑性决定步长上限，强凸性决定收敛速度与解的唯一性，Nesterov 加速在不牺牲稳定性的前提下加速到达。含关键定理证明与最小二乘实验对比。

Dec 16, 2022 Standalone 10 min read

优化算法的演进：从梯度下降到 Adam（再到 2025 之后）

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW，再到 Lion / Sophia / Schedule-Free 的完整脉络：每一步解决了前一步的什么痛点？为什么大模型几乎都在用 AdamW？以及 2023 年之后我们究竟走到了哪里。