Deep Learning on Chen Kai Blog

机器学习数学推导（十九）：神经网络与反向传播

Sat, 07 Feb 2026 09:00:00 +0000

本文概览#

单个感知机无法解决 XOR 问题，但只要堆叠足够多的感知机并引入非线性激活函数，就能构建出一个通用函数逼近器。那么，这样的网络如何从数据中学习？答案是反向传播——它本质上是对链式法则的高效应用，通过一次反向遍历复用中间结果，成为过去四十年所有深度学习库的核心引擎。深入理解其数学原理，还能揭示两个关键现象：为什么深层网络容易遭遇梯度消失或爆炸，以及为什么权重初始化远非随意选择。

重参数化技巧与 Gumbel-Softmax 详解

Wed, 30 Jul 2025 09:00:00 +0000

一旦模型中引入采样操作，训练便会立即面临一个关键难题：梯度如何流经随机节点

重参数化（reparameterization）给出的答案非常直接——把 $z\sim p_\theta(z)$ 改写成 $z=g_\theta(\epsilon)$ ，把随机性隔离到与参数无关的噪声 $\epsilon$ 里，于是反向传播可以顺着 $g_\theta$ 走下去。麻烦在于离散变量： $\arg\max$ 一类操作不可导，梯度会断掉。Gumbel-Softmax（也叫 Concrete 分布）用“带温度的 softmax + Gumbel 噪声”把离散采样变成可微近似，让你在保留离散结构的同时仍能端到端训练。

迁移学习（六）：多任务学习

Sat, 31 May 2025 09:00:00 +0000

一辆使用单摄像头的自动驾驶汽车，需要同时完成三件事：检测车辆与行人、分割车道线与可行驶区域，以及估计每个像素的深度。若为这三个任务分别训练独立网络，不仅参数量会增至三倍，推理时还需执行三次前向传播，更关键的是，这种做法忽略了它们共享同一套底层特征（如边缘、表面结构和遮挡线索）这一事实。

迁移学习（五）：知识蒸馏

Sun, 25 May 2025 09:00:00 +0000

我训练了一个 340M 参数的 BERT 模型，准确率达到 95%，但产品团队希望将其部署到手机上，而手机只能容纳约 10M 参数。如果从头训练一个 10M 的小模型，准确率只能达到 85%；这时，知识蒸馏几乎可以弥补大部分差距——通过让小模型学习大模型的输出分布，而不仅仅是硬标签，最终准确率可以提升到 92%。

迁移学习（四）：小样本学习

Mon, 19 May 2025 09:00:00 +0000

给小孩看一张穿山甲的照片，他这辈子都能认出穿山甲；而给深度学习模型看一张照片，它的回答基本是随机瞎猜。小样本学习旨在填补这一差距，使分类器在每类只有 1 到 10 个标注样本的情况下也能正常工作。

迁移学习（三）：域适应

Tue, 13 May 2025 09:00:00 +0000

我的自动驾驶模型在加州晴天的高速公路上表现堪称完美，但一到西雅图下雨，Top-1 准确率就从 95% 直接跌到 70%。问题不在于模型变差了，而是数据分布发生了偏移——训练集里压根没有傍晚湿滑沥青路面的样本。

迁移学习（二）：预训练与微调

Wed, 07 May 2025 09:00:00 +0000

2018 年，BERT 横空出世，几乎一夜之间改变了 NLP 的游戏规则。一个在 Wikipedia 和 BookCorpus 上预训练的模型，只需几千条标注数据进行微调，就能超越研究者们花费数年精心设计的任务专用架构。同样的故事后来在视觉领域（ImageNet 预训练、SimCLR、MAE）、语音领域（wav2vec 2.0）以及代码领域（Codex）不断重演。如今，“一次预训练，到处微调”已经成为现代深度学习的标准做法。

迁移学习（一）：基础与核心概念

Thu, 01 May 2025 09:00:00 +0000

我花了整整两周时间，用一整柜 GPU 训练出一个 ImageNet 分类器。周一早上，团队负责人突然要求我做一个胸片肺炎识别模型，而手头的标注数据只有 200 张——难道还要再排队两周 GPU 时间，从零开始训练吗？

线性代数（十六）：深度学习中的线性代数——从全连接到 Transformer

Wed, 16 Apr 2025 09:00:00 +0000

去掉那些营销包装，深度网络的本质其实很简单：一连串矩阵乘法，中间用逐元素非线性函数连接起来。前向传播、反向传播、卷积、注意力机制、归一化、微调——所有这些所谓的“技巧”不过是同一个代数主题的小小变化。一旦看清背后的矩阵，这个领域就不再是零散的配方，而是统一的语言。

线性代数（十三）：张量与多线性代数——从标量到高维数据立方体

Wed, 26 Mar 2025 09:00:00 +0000

如果你用过 PyTorch 或 TensorFlow，“张量”这个词你一定见过无数次。 PyTorch 把所有数组都叫 torch.Tensor， TensorFlow 更是直接把张量写进了名字。但张量到底是什么？为什么这些框架要用一个听起来像物理术语的词来描述看似多维数组的对象？

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

Fri, 30 Jun 2023 09:00:00 +0000

第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它完全不依赖输入顺序。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。

变分自编码器 (VAE)：从直觉到实现与调试

Tue, 27 Jun 2023 09:00:00 +0000

普通自编码器仅能压缩与重建，而变分自编码器（VAE）则具备生成能力——它学习到一个平滑且结构化的潜在空间，可以从中采样生成全新数据。将编码器从“输出一个向量”改为“输出一个分布”，这一步骤使模型从一个花哨的压缩器升级为带可优化似然下界的生成模型。

优化理论（三）：梯度下降族——从 SGD 到 AdamW

Fri, 16 Sep 2022 09:00:00 +0000

为什么“调学习率是一门艺术”成了 ResNet 的梗，而每篇现代 LLM 论文却只是简单写下 “AdamW, $\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$ ” 就翻篇了？这并非偶然——这是 三十余年优化器演化的终点。