Generative Models on Chen Kai Blog

重参数化技巧与 Gumbel-Softmax 详解

Wed, 30 Jul 2025 09:00:00 +0000

一旦模型中引入采样操作，训练便会立即面临一个关键难题：梯度如何流经随机节点

重参数化（reparameterization）给出的答案非常直接——把 $z\sim p_\theta(z)$ 改写成 $z=g_\theta(\epsilon)$ ，把随机性隔离到与参数无关的噪声 $\epsilon$ 里，于是反向传播可以顺着 $g_\theta$ 走下去。麻烦在于离散变量： $\arg\max$ 一类操作不可导，梯度会断掉。Gumbel-Softmax（也叫 Concrete 分布）用“带温度的 softmax + Gumbel 噪声”把离散采样变成可微近似，让你在保留离散结构的同时仍能端到端训练。

偏微分方程与机器学习（七）：扩散模型与 Score Matching

Tue, 30 Jul 2024 09:00:00 +0000

扩散模型的输出端我们很熟悉：一张高质量图片。但训练目标乍看之下却很反直觉——先把数据加噪声加到完全是高斯，再学怎么一步步去噪。为什么这个绕远路的策略反而比直接学数据分布有效？

变分自编码器 (VAE)：从直觉到实现与调试

Tue, 27 Jun 2023 09:00:00 +0000

普通自编码器仅能压缩与重建，而变分自编码器（VAE）则具备生成能力——它学习到一个平滑且结构化的潜在空间，可以从中采样生成全新数据。将编码器从“输出一个向量”改为“输出一个分布”，这一步骤使模型从一个花哨的压缩器升级为带可优化似然下界的生成模型。