标签

Deep Learning

Feb 7, 2026 机器学习数学推导 24 分钟

机器学习数学推导（十九）：神经网络与反向传播

神经网络如何学习？本文推导前向传播的矩阵形式、反向传播的链式法则逐层推导、梯度消失/爆炸的数学分析、以及 Xavier 和 He 初始化的方差保持策略。

Dec 10, 2025 推荐系统 46 分钟

重参数化技巧与 Gumbel-Softmax 详解

讲清楚连续重参数化与 Gumbel-Softmax 的推导、直觉与实现：为什么梯度能穿过采样节点，温度参数如何权衡偏差-方差，以及离散变量端到端训练的常见坑。

May 31, 2025 迁移学习 38 分钟

迁移学习（六）：多任务学习

多任务学习完全指南：硬/软参数共享、梯度冲突与 PCGrad/GradNorm/CAGrad、辅助任务设计，以及完整的多任务框架实现。

May 25, 2025 迁移学习 32 分钟

迁移学习（五）：知识蒸馏

把大模型的能力压进小模型而几乎不掉点：暗知识、温度缩放、响应/特征/关系蒸馏、自蒸馏与多策略实现的完整指南。

May 19, 2025 迁移学习 38 分钟

迁移学习（四）：小样本学习

从极少样本中学会新概念：N-way K-shot 评测协议、度量学习（Siamese、Prototypical、Matching、Relation 网络）、元学习（MAML、Reptile）、Episode 训练范式，以及一份可直接运行的 Prototypical 网络实现。

May 13, 2025 迁移学习 36 分钟

迁移学习（三）：域适应

域适应实战指南：协变量偏移、标签偏移、DANN 梯度反转、MMD 对齐、CORAL、自训练、AdaBN，以及一份可运行的 DANN 完整实现。

May 7, 2025 迁移学习 40 分钟

迁移学习（二）：预训练与微调

预训练如何从无标注数据中学到强大的先验，微调如何把它适配到具体任务。涵盖对比学习、掩码语言模型、判别式学习率、层冻结、灾难性遗忘、LoRA，以及一个工业级 BERT 微调实现。

May 1, 2025 迁移学习 34 分钟

迁移学习（一）：基础与核心概念

迁移学习入门指南：为什么迁移有效、形式化定义、分类体系、负迁移，以及一个基于 MMD 域适应的完整特征迁移实现。

Apr 16, 2025 线性代数 26 分钟

线性代数（十六）：深度学习中的线性代数——从全连接到 Transformer

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式，反向传播的矩阵链式法则，卷积的 im2col 技巧，注意力机制的矩阵操作，到 LoRA 低秩微调。

Mar 26, 2025 线性代数 30 分钟

线性代数（十三）：张量与多线性代数——从标量到高维数据立方体

张量是向量和矩阵到任意维度的推广。本章从标量、向量、矩阵出发，讲解纤维、切片、展开等概念，以及 CP 分解、Tucker 分解和 HOSVD，并探讨张量在神经网络压缩和推荐系统中的应用。

Jun 30, 2023 单点深潜 18 分钟

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码：为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳，以及如何为新模型选型。

Jun 27, 2023 单点深潜 18 分钟

变分自编码器 (VAE)：从直觉到实现与调试

从零用 PyTorch 构建 VAE。涵盖 ELBO 目标函数、重参数化技巧、后验坍塌修复、beta-VAE，以及完整的训练流水线。

Sep 16, 2022 优化理论 20 分钟

优化理论（三）：梯度下降族——从 SGD 到 AdamW

一篇文章串起 GD → SGD → Momentum → NAG → AdaGrad → RMSProp → Adam → AdamW，再到 Lion / Sophia / Schedule-Free 的完整脉络：每一步解决了前一步的什么痛点？为什么大模型几乎都在用 AdamW？以及 2023 年之后我们究竟走到了哪里。