机器学习数学推导（十四）：变分推断与变分 EM

Mon, 02 Feb 2026 09:00:00 +0000

后验 $p(\mathbf{z}\mid\mathbf{x})$ 无法直接计算时，我们面临两条路径。采样方法（MCMC）通过构造一条马尔可夫链，使其平稳分布恰好等于目标后验——理论上最终能精确逼近，但收敛缓慢且诊断困难。变分推断（VI）则另辟蹊径：先选定一个结构简单的分布族 $\mathcal{Q}$ ，再从中找出最接近真实后验的那个成员 $q^\star$ 。如此一来，推断问题就转化为优化问题——训练神经网络的那一套工具，现在也能用来拟合贝叶斯模型了。

偏微分方程与机器学习（三）：变分原理与优化

Fri, 31 May 2024 09:00:00 +0000

训练神经网络的本质是什么？当我们在高维参数空间中运行梯度下降时，背后是否存在某种更深刻的连续时间动力学？当网络宽度趋于无穷时，离散的参数更新是否会收敛到某个优雅的偏微分方程？这些问题的答案，正位于变分法、最优传输与 PDE 理论的交汇处。

Mean-Field on Chen Kai Blog

机器学习数学推导（十四）：变分推断与变分 EM

偏微分方程与机器学习（三）：变分原理与优化