Variational Inference on Chen Kai Blog

机器学习数学推导（十四）：变分推断与变分 EM

Mon, 02 Feb 2026 09:00:00 +0000

后验 $p(\mathbf{z}\mid\mathbf{x})$ 无法直接计算时，我们面临两条路径。采样方法（MCMC）通过构造一条马尔可夫链，使其平稳分布恰好等于目标后验——理论上最终能精确逼近，但收敛缓慢且诊断困难。变分推断（VI）则另辟蹊径：先选定一个结构简单的分布族 $\mathcal{Q}$ ，再从中找出最接近真实后验的那个成员 $q^\star$ 。如此一来，推断问题就转化为优化问题——训练神经网络的那一套工具，现在也能用来拟合贝叶斯模型了。

偏微分方程与机器学习（四）：变分推断与 Fokker-Planck 方程

Sat, 15 Jun 2024 09:00:00 +0000

为什么变分推断（一个看起来纯优化的方法）和 Langevin MCMC（一个看起来纯采样的方法）最后会汇到同一个偏微分方程？

这一篇我想讲的就是这件事。它们在连续时间下其实是同一个 Fokker-Planck PDE 的两面：一边是密度的演化，一边是 KL 散度沿 Wasserstein 几何的梯度流。看清这一点之后，许多看起来不相关的工具——SVGD 的粒子算法、对数 Sobolev 不等式给出的指数收敛、贝叶斯神经网络的训练——会突然落到同一张图上。