Tagged

Deep Learning

Jun 3, 2025 Standalone 11 min read

浅谈位置编码:从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码:为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳,以及如何为新模型选型。

Jun 5, 2024 Standalone 11 min read

变分自编码器 (VAE):从直觉到实现与调试

从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE,以及完整的训练流水线。

Jan 22, 2024 Standalone 14 min read

重参数化技巧与 Gumbel-Softmax 详解

讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现:为什么梯度能穿过采样节点,温度参数如何权衡偏差-方差,以及离散变量端到端训练的常见坑。

Dec 16, 2022 Standalone 10 min read

优化算法的演进:从梯度下降到 Adam(再到 2025 之后)

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW,再到 Lion / Sophia / Schedule-Free 的完整脉络:每一步解决了前一步的什么痛点?为什么大模型几乎都在用 AdamW?以及 2023 年之后我们究竟走到了哪里。