PDE与机器学习(三):变分原理与优化
变分原理与PDE求解:Euler-Lagrange方程、Wasserstein梯度流、Mean-Field理论,以及完整数值实验。
当你训练一个神经网络时,你在做什么?调整几百万个参数?在高维空间中寻找最优点?这些描述都对,但都不够深刻。
换个视角:把神经网络看成一个粒子系统。每个神经元是一个粒子,训练过程是粒子在参数空间中的集体运动。当网络非常宽(成千上万个神经元)时,单个粒子的行为不重要,重要的是粒子的密度分布如何演化——就像研究气体时不跟踪每个分子,而是研究压强和温度。
这个视角的数学语言是偏微分方程。粒子密度 $\rho_t(\theta)$ 的演化由一个 PDE 描述——Vlasov 方程、Fokker-Planck 方程、或者更一般的 Wasserstein 梯度流。这不只是数学游戏,而是揭示了训练的全局性质:为什么过参数化有效?为什么梯度下降能找到好的解?初始化为什么重要?
更深一层,这个 PDE 视角连接了三个看似无关的领域:
- 变分法:从物理学的最小作用量原理,到现代的泛函优化;
- 最优传输:Wasserstein 距离测量概率分布的"搬运成本";
- 统计力学:Mean-Field 理论描述大量粒子的集体行为。
本文将系统建立这一理论框架。从经典变分法的 Euler-Lagrange 方程出发,引入 Wasserstein 几何和梯度流理论,推导神经网络的 Mean-Field 方程,论述全局收敛性,并通过数值实验验证理论预测。

1. 变分法基础:从泛函到 Euler-Lagrange 方程
1.1 泛函与第一变分
变分法的核心对象是泛函——它接收一个函数作为输入,返回一个实数。普通函数吃数字,泛函吃整个函数。
定义(泛函):设 $X$ 是函数空间(如 $C^1([a,b])$),泛函 $J : X \to \mathbb{R}$ 把每个函数 $y \in X$ 映射到一个实数 $J[y]$。
后文将反复出现的三个例子:
- 弧长泛函:曲线 $y(x)$ 在 $[a,b]$ 上的长度 $L[y] = \int_a^b \sqrt{1 + y'(x)^2}\, dx.$
- 旋转曲面面积:$A[y] = 2\pi \int_a^b y(x) \sqrt{1 + y'(x)^2}\, dx.$
- 作用量:质点轨迹 $q(t)$ 的作用量 $S[q] = \int_{t_0}^{t_1} L(q, \dot q, t)\, dt$,其中 $L$ 为 Lagrangian。
变分法的根本问题是:在所有满足边界条件的函数中,哪一个使 $J$ 取极值?
$$ \delta J[y; \eta] = \lim_{\varepsilon \to 0} \frac{J[y + \varepsilon \eta] - J[y]}{\varepsilon}. $$$$ \delta J[y; \eta] = \int \frac{\delta J}{\delta y}(x)\, \eta(x)\, dx, $$$\delta J/\delta y$ 称为 $J$ 的变分导数或泛函导数。
$$ J[y] = \int_a^b F(x, y(x), y'(x))\, dx, $$$$ \frac{\partial F}{\partial y} - \frac{d}{dx}\frac{\partial F}{\partial y'} = 0. $$$$ \int_a^b \left(\frac{\partial F}{\partial y}\eta + \frac{\partial F}{\partial y'}\eta'\right) dx = 0. $$$$ \int_a^b \left(\frac{\partial F}{\partial y} - \frac{d}{dx}\frac{\partial F}{\partial y'}\right)\eta\, dx = 0 $$对任意容许 $\eta$ 成立。变分法基本引理迫使括号内的表达式恒等为零,即 Euler-Lagrange 方程。$\square$
![Euler-Lagrange 几何图像:左图为扰动族 $y + \varepsilon \eta$($\eta$ 在端点为零);右图为 $J(\varepsilon) = J[y+\varepsilon\eta]$ 的剖面,极值表现为 $\varepsilon = 0$ 处水平切线。](./03-%e5%8f%98%e5%88%86%e5%8e%9f%e7%90%86%e4%b8%8e%e4%bc%98%e5%8c%96/fig2_euler_lagrange.png)
1.2 经典案例:最速降线(Brachistochrone)
问题:在均匀重力场中,质点沿无摩擦曲线从 $A=(0,0)$ 滑到 $B$,哪条曲线使下降时间最短?
$$ T[y] = \int_0^{x_B} \frac{\sqrt{1 + y'(x)^2}}{\sqrt{2 g\, y(x)}}\, dx. $$$$ y(1 + y'^2) = \frac{1}{2gC^2} =: 2R. $$$$ x(\theta) = R(\theta - \sin\theta), \qquad y(\theta) = R(1 - \cos\theta) , $$即半径为 $R$ 的圆沿直线滚动时圆周上一点的轨迹。图 1 中直线、抛物线、圆弧等其他候选曲线的下降时间都严格大于摆线。
1.3 Hamilton 原理与辛几何视角
$$ \frac{d}{dt}\frac{\partial L}{\partial \dot q} - \frac{\partial L}{\partial q} = 0 $$$$ \dot q = \frac{\partial H}{\partial p}, \qquad \dot p = -\frac{\partial H}{\partial q}. $$辛二形式 $\omega = dp \wedge dq$ 沿流不变。第 7 节我们会再次见到这一结构,并对比它与梯度流的差别。
1.4 从泛函导数到梯度流
$$ \frac{\delta J}{\delta y} = \frac{\partial F}{\partial y} - \frac{d}{dx}\frac{\partial F}{\partial y'} . $$例(Dirichlet 能量):$J[u] = \tfrac12 \int |\nabla u|^2\, dx$,$\delta J/\delta u = -\Delta u$,极值条件 $\delta J/\delta u = 0$ 即 Laplace 方程 $\Delta u = 0$。
$$ \partial_t u = -\frac{\delta J}{\delta u}. $$对 Dirichlet 能量,这就是热方程 $\partial_t u = \Delta u$。物理中的众多重要 PDE 都源于这种结构——而下一节我们将看到,即便状态不再是函数,而是一个概率测度,这种结构依然成立。
2. 梯度流理论与 Wasserstein 几何
2.1 欧氏空间中的梯度流
$$ \dot x(t) = -\nabla f(x(t)), $$即最速下降的连续时间版本。三个性质后文反复使用:
- 能量耗散:$\dfrac{d}{dt} f(x(t)) = -\|\nabla f(x(t))\|^2 \leq 0$。
- 平衡点为 $f$ 的临界点;强凸时收敛到唯一极小值。
- 隐式欧拉离散:$x_{k+1} = \arg\min_x \{f(x) + \tfrac{1}{2\tau}\|x - x_k\|^2\}$。下面我们就把欧氏距离换成 Wasserstein 距离,得到 JKO 格式。
2.2 Wasserstein 距离
当系统状态是概率密度时,欧氏度量不再是自然选择,应该换成 Wasserstein-2 距离——它度量将一个分布"搬运"成另一个所需的最小代价。
$$ W_2^2(\rho_0, \rho_1) = \inf_{\gamma \in \Pi(\rho_0, \rho_1)} \int_{\mathbb{R}^d \times \mathbb{R}^d} |x - y|^2\, d\gamma(x, y), $$其中 $\Pi(\rho_0, \rho_1)$ 是边缘为 $\rho_0, \rho_1$ 的联合分布全体。
Brenier 定理:若 $\rho_0$ 绝对连续,则最优耦合集中在某映射 $T = \nabla \varphi$ 的图上,$\varphi$ 凸,$\rho_1 = T_\# \rho_0$。
$$ W_2^2 = \|\mu_0 - \mu_1\|^2 + \mathrm{tr}\!\left(\Sigma_0 + \Sigma_1 - 2 (\Sigma_0^{1/2} \Sigma_1 \Sigma_0^{1/2})^{1/2}\right). $$2.3 JKO 格式:$\mathcal{P}_2$ 上的梯度流
如何在概率测度空间上定义"梯度流"?Jordan、Kinderlehrer、Otto(1998)的回答是:把隐式欧拉中的 $\|\cdot\|$ 直接替换为 $W_2$。
$$ \rho_{k+1}^\tau \in \arg\min_{\rho} \left\{\mathcal{E}[\rho] + \frac{1}{2\tau} W_2^2(\rho, \rho_k^\tau)\right\}. $$当 $\tau \to 0$ 时(如果极限存在),离散轨迹的极限称为 $\mathcal{E}$ 的 Wasserstein 梯度流。
2.4 热方程作为熵的梯度流
定理(Otto):Boltzmann 熵 $\mathcal{H}[\rho] = \int \rho \log \rho\, dx$ 的 Wasserstein 梯度流恰为热方程 $\partial_t \rho = \Delta \rho$。
关键步骤:JKO 一阶最优性条件给出 $\delta \mathcal{H}/\delta \rho + \varphi/\tau = \text{常数}$,其中 $\varphi$ 是把 $\rho_k$ 推到 $\rho_{k+1}$ 的 Brenier 势。由 $\delta \mathcal{H}/\delta \rho = \log \rho + 1$ 知最优映射诱导的速度场为 $v = -\nabla \log \rho$。代入连续性方程 $\partial_t \rho + \nabla \cdot (\rho v) = 0$,即得 $\partial_t \rho = \nabla \cdot (\rho \nabla \log \rho) = \Delta \rho$。
同样的机器还能产出其他经典 PDE:
- Fokker-Planck 方程:自由能 $\mathcal{F}[\rho] = \int V \rho + \int \rho \log \rho$ 的 Wasserstein 梯度流是 $\partial_t \rho = \nabla \cdot (\rho \nabla V) + \Delta \rho$,平衡解为 Gibbs 测度 $\rho_\infty \propto e^{-V}$。
- 多孔介质方程:内能 $\int \rho^m\, dx$ 的梯度流是 $\partial_t \rho = \Delta(\rho^m)$。
- Keller-Segel 方程:加上吸引相互作用,得到趋化方程。
![自由能 $F[\rho] = \int V \rho + \int \rho \log \rho$ 的 Wasserstein 梯度流:左图为密度快照,右图为沿流的能量耗散。](./03-%e5%8f%98%e5%88%86%e5%8e%9f%e7%90%86%e4%b8%8e%e4%bc%98%e5%8c%96/fig3_wasserstein_gradient_flow.png)
3. 神经网络训练的 Mean-Field 理论
3.1 从有限宽度到无限宽度
$$ f_\theta(x) = \frac{1}{m} \sum_{i=1}^m a_i \, \sigma(w_i^\top x + b_i), $$参数 $\theta_i = (a_i, w_i, b_i)$,宽度 $m$。给定数据 $\{(x_k, y_k)\}_{k=1}^n$,经验风险为 $\hat R(\theta) = \frac{1}{n}\sum_k \ell(f_\theta(x_k), y_k)$,梯度下降按 $-\eta \nabla_{\theta_i} \hat R$ 更新每个 $\theta_i$。
粒子图像:把每个神经元视作参数空间中的一个粒子,训练就是 $m$ 粒子相互作用系统——它们通过 $f_\theta$ 共同决定损失而耦合。
$$ \rho_t^m := \frac{1}{m} \sum_{i=1}^m \delta_{\theta_i(t)} $$$$ f_{\rho_t^m}(x) = \int a\, \sigma(w^\top x + b)\, d\rho_t^m(\theta). $$Mean-Field 极限:在适当尺度下(依参数化不同,学习率约为 $1/\sqrt m$ 或 $1/m$),若初始参数独立同分布于 $\rho_0$,则 $m \to \infty$ 时 $\rho_t^m \xrightharpoonup{} \rho_t$,极限密度 $\rho_t$ 满足 Mean-Field 方程(Vlasov / 连续性 PDE)。

3.2 Mean-Field 方程的推导
$$ \mathcal{L}[\rho] = \frac{1}{n} \sum_{k=1}^n \ell(f_\rho(x_k), y_k), \quad f_\rho(x) = \int a\, \sigma(w^\top x + b)\, d\rho(\theta) . $$$$ \dot \theta_i = -\nabla_\theta \frac{\delta \mathcal{L}}{\delta \rho}\bigg|_{\rho = \rho_t^m}(\theta_i) . $$$$ \partial_t \rho + \nabla_\theta \cdot (\rho\, v_t) = 0, \qquad v_t(\theta) = -\nabla_\theta \frac{\delta \mathcal{L}}{\delta \rho}[\rho_t](\theta) . $$这是一个确定性、非线性的密度演化 PDE。
3.3 全局收敛性
定理(Mei-Montanari-Nguyen 2018, Chizat-Bach 2018,结论性叙述):在 (a) 充分过参数化(极限下 $\rho_0$ 支撑足够大)、(b) 数据点上 NTK 正定、(c) 初始化适当(如高斯)三条件下,Mean-Field 方程驱动损失到零。
证明骨架:在适当 regime 下,网络在初始化附近线性化,残差 $r_t(x) = f_{\rho_t}(x) - y(x)$ 满足 $\dot r = -K r$,$K \succeq \lambda_{\min}(K) I$,故 $\|r_t\|^2 \leq e^{-\lambda_{\min}(K) t} \|r_0\|^2$。
NTK 与 Mean-Field 的对比:两类典型 regime 描述同一两层网络的不同情形——
- NTK / lazy regime(Jacot-Gabriel-Hongler 2018):$m \to \infty$,学习率固定,参数几乎不动,网络在初始化附近线性化,等价于一个核方法。
- Mean-Field regime:学习率随 $m$ 缩放,参数移动 $O(1)$,动力学真正非线性,呈现"特征学习"。
3.4 Wasserstein 梯度流形式
$$ \mathcal{L}[\rho] = \tfrac12 \int K(\theta, \theta')\, d\rho(\theta)\, d\rho(\theta') + \int g(\theta)\, d\rho(\theta) , $$则 Mean-Field 方程恰好是 $\mathcal{L}$ 在 $\mathcal{P}_2$ 上的 Wasserstein 梯度流。这是"训练即 $\mathcal{P}_2$ 上的梯度流"最干净的依据:尽管损失对 $\theta$ 非凸,但在测度空间中可能具有 位移凸性(displacement convexity),从而保证全局收敛。

3.5 深度网络的连续时间解释
$$ h_{\ell+1} = h_\ell + \tau\, F(h_\ell, \theta_\ell) $$$$ \min_F \int c(x, F(x))\, d\rho_X(x), \quad \text{约束} \ F_\# \rho_X = \rho_Y , $$即学习一个把数据分布逐层"展平"、传输到分类器易于读取的目标分布的最优映射。
4. 变分推断与 ELBO
$$ \mathrm{ELBO}(q) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - \mathrm{KL}\!\left(q(z|x) \,\Vert\, p(z)\right) , $$等价于最小化 $\mathrm{KL}(q(z|x)\,\Vert\,p(z|x))$——它是一个有约束的变分问题。当 $\mathcal{Q}$ 取所有密度时,最优解就是真实后验。
更妙的是,由第 2.4 节的视角,KL 散度 $\mathrm{KL}(\cdot\,\Vert\,p)$ 的 Wasserstein 梯度流正是 Fokker-Planck 方程,这正是扩散生成模型(diffusion)能与 VAE 共用一套理论工具的原因。

5. 数值验证
下面汇总支撑前述理论的数值实验。所有四组实验都可由仓库中的 scripts/figures/pde-ml/03-variational.py 一键复现。
5.1 最速降线(图 1)
5 条候选下降曲线连接 $A=(0,0)$ 与 $B=(\pi, 2)$;用梯形法离散时间泛函 $T[y]$,按下降时间排序。摆线以明显优势胜出,既快于"最短路径"(直线),也快于"先陡后平"的候选。这一张图浓缩了变分法的全部精神:不同容许函数给出不同泛函值,唯有第一变分为零的那个使泛函取极。
5.2 第一变分论证(图 2)
取 Dirichlet 能量在 $[0,1]$ 上的极值 $y(x) = \sin(\pi x)$(端点为零)以及光滑扰动 $\eta(x) = \sin(2\pi x) \cdot x(1-x)$(端点为零)。绘出 $J(\varepsilon) = J[y + \varepsilon \eta]$ 关于 $\varepsilon$ 的曲线——抛物线,$\varepsilon = 0$ 处水平切线。这就是 Euler-Lagrange 方程的几何内涵。
5.3 Wasserstein 梯度流(图 3)
$$ \partial_t \rho = \nabla \cdot (\rho \nabla V) + \Delta \rho, \qquad V(x) = \tfrac12 (x - \mu_\ast)^2 . $$初始密度是远离目标的尖锐高斯。仿真同时呈现三件事:
- $\rho_t$ 在测度空间中向 Gibbs 目标 $\rho_\ast = \mathcal{N}(\mu_\ast, 1)$ 平移;
- 自由能 $F[\rho_t]$ 沿流单调递减(梯度流的能量耗散);
- 均值与 $\mu_\ast$ 的差也单调递减——是一个"Wasserstein 距离的代理量"。
5.4 Mean-Field 极限(图 4)
两层 ReLU 网络在 64 个数据点上拟合 $f_\ast(x) = \sin(\pi x) + 0.5 \sin(3\pi x)$,宽度 $m \in \{20, 200, 2000\}$。三个训练快照(0、200、1500 epoch)下的第一层权重直方图随 $m$ 增大变得越来越光滑;$m = 2000$ 时已成为对一条连续密度的可信采样。最右一列的损失曲线显示宽度越大收敛越快——与 Mean-Field 过参数化理论一致。学习率取 $\propto 1/\sqrt m$,使每粒子漂移保持 $O(1)$,正是 Mean-Field regime 的正确尺度。
5.5 能量景观(图 5)
人为构造的二维非凸能量(带倾斜与三角函数"凸起")演示梯度流的普适耗散律。RK45 积分得到的轨迹落入最低吸引盆,对应能量时间序列单调递减。把同样的图像扩展到百万维,就是关于神经网络训练的常用直观——只不过真实损失景观往往拥有大量更"平坦"的极小值(这一现象既贡献了泛化能力,也解释了 SGD 的成功)。
6. 另外两种几何:Fisher-Rao 与 Adam
6.1 Fisher-Rao 度量与自然梯度
$$ I(\theta) = \mathbb{E}_{p_\theta}\!\left[\nabla_\theta \log p_\theta(x)\, \nabla_\theta \log p_\theta(x)^\top\right] $$诱导 Fisher-Rao 度量,相应的自然梯度流 $\dot \theta = -I(\theta)^{-1} \nabla_\theta J(\theta)$(Amari 1998)通常远快于普通梯度下降,因为它考虑了参数空间的内禀曲率。两种几何看世界的方式不同:
- Wasserstein:度量"传输代价",适合分布支撑发生平移的情形;
- Fisher-Rao:度量"信息几何距离",适合分布原地变形的情形。
近期的 Kernel Approximation of Fisher-Rao Gradient Flows 研究了如何用核方法近似 Fisher-Rao 梯度流,并将其应用于 Langevin 类采样算法。
6.2 Adam 作为重参数化的梯度流
$$ \dot \theta = -\frac{m_t}{\sqrt{v_t} + \epsilon}, \qquad \dot m_t = \alpha_1\big(\nabla J(\theta) - m_t\big), \qquad \dot v_t = \alpha_2\big(\|\nabla J(\theta)\|^2 - v_t\big), $$即 $J$ 在坐标相关 Riemann 度量 $g_{ii}(\theta) = \sqrt{v_i(\theta)} + \epsilon$ 下的梯度流。这是自然梯度的对角近似——自适应学习率的本质,是一次度量的改换。
7. Hamilton 流 vs. 梯度流
一个关键提醒:并非所有流都是梯度流。同一个能量函数可以伴生两种性质完全相反的动力学。

8. 最新进展与开放问题
Mean-Field SGD:实际训练采用随机梯度,Mean-Field 方程多出噪声项,化为 McKean-Vlasov SDE;适量噪声加速收敛——它帮助逃离鞍点;噪声强度、批量大小与有效温度间存在涨落-耗散关系。详见 Mean-Field Analysis of Neural SGD-Ascent 。
多层 Mean-Field:对深度 $L$ 的网络,每层参数分布满足耦合 PDE 系统,分析远比两层情形复杂。ResNet 与残差连接相对易处理——它们对应一个离散时间最优传输格式,详见 Deep ResNets and Conditional Optimal Transport 。
双重下降与隐式偏差:过参数化网络泛化良好的部分原因,是梯度流在所有插值解中偏好最大熵的那个。如何为深度网络给出"最大熵"的恰当定义,仍是活跃方向。
Lyapunov 函数:一般收敛理论需要某个 $L[\rho_t]$,其耗散率可被下界。候选包括损失本身(仅在 PL 或凸条件下足够)、自由能、粒子间距离等。目前尚无统一选择能覆盖一般非凸深度情形。
9. 展望
PDE / 变分视角目前最活跃的几个方向:
- 理论:非凸损失下更精细的速率;有限宽度修正;注意力层的 PDE 理论;
- 算法:高阶 ODE/PDE 求解器作为新优化器;最优控制视角下的超参数调度;Wasserstein 感知的 MCMC;
- 应用:扩散生成模型 = 反向 Fokker-Planck;策略梯度 = 策略空间上的梯度流;Deep Ritz 与 PINN 把 PDE 求解化为变分问题;
- 跨学科:自旋玻璃类比;端到端优化的 Pontryagin 最大值原理;信息几何与辛几何在深度学习中的应用。
总结
我们从变分法出发,搭建了关于神经网络优化的 PDE 视角:泛函与 Euler-Lagrange 方程把离散优化与连续动力学联通;Wasserstein 几何为概率测度空间提供了自然度量,并把热方程、Fokker-Planck、多孔介质、Keller-Segel 等经典 PDE 统一为显式能量的梯度流;Mean-Field 极限把有限宽度神经网络的训练化为 Vlasov 型 PDE,并在合理假设下给出全局收敛保证;ELBO、Adam、Hamilton 动力学都可纳入同一变分框架。最速降线、一维 Fokker-Planck、宽度扫描、非凸能量景观、小型 VAE 这五组数值实验逐项印证理论。
PDE 视角仍处早期阶段。随着数学与机器学习继续相互渗透,它将为优化器设计、泛化分析与收敛证明提供越来越锐利的工具。
参考文献
- L. Chizat and F. Bach, “On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport,” NeurIPS, 2018. arXiv:1805.09545
- S. Mei, A. Montanari, P.-M. Nguyen, “A Mean Field View of the Landscape of Two-Layer Neural Networks,” PNAS, 2018. arXiv:1804.06561
- G. M. Rotskoff and E. Vanden-Eijnden, “Neural Networks as Interacting Particle Systems,” arXiv:1805.00915, 2018.
- A. Jacot, F. Gabriel, C. Hongler, “Neural Tangent Kernel: Convergence and Generalization in Neural Networks,” NeurIPS, 2018. arXiv:1806.07572
- W. E and B. Yu, “The Deep Ritz Method,” CPAM, 2018. arXiv:1710.00211
- R. T. Q. Chen et al., “Neural Ordinary Differential Equations,” NeurIPS, 2018. arXiv:1806.07366
- L. Ambrosio, N. Gigli, G. Savaré, Gradient Flows in Metric Spaces and in the Space of Probability Measures, Birkhäuser, 2008.
- C. Villani, Optimal Transport: Old and New, Springer, 2009.
- R. Jordan, D. Kinderlehrer, F. Otto, “The Variational Formulation of the Fokker-Planck Equation,” SIAM J. Math. Anal., 1998.
- F. Otto, “The Geometry of Dissipative Evolution Equations: the Porous Medium Equation,” Comm. PDE, 2001.
- Y. Lu and J. Lu, “Mean-Field Analysis of Neural SGD-Ascent ,” 2024.
- A. Kazeykina and M. Fornasier, “Kernel Approximation of Fisher-Rao Gradient Flows ,” 2024.
- D. Onken et al., “Deep ResNets and Conditional Optimal Transport ,” 2024.
- M. Belkin et al., “Reconciling Modern Machine Learning Practice and the Classical Bias-Variance Trade-off,” PNAS, 2019.
- S. Amari, “Natural Gradient Works Efficiently in Learning,” Neural Computation, 1998.
- D. P. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” ICLR, 2015. arXiv:1412.6980
- L. Chizat, E. Oyallon, F. Bach, “On Lazy Training in Differentiable Programming,” NeurIPS, 2019. arXiv:1812.07956
- G. Peyré and M. Cuturi, “Computational Optimal Transport,” Foundations and Trends in Machine Learning, 2019. arXiv:1803.00567
- J. Sirignano and K. Spiliopoulos, “Mean Field Analysis of Neural Networks: A Central Limit Theorem,” Stoch. Proc. Appl., 2020. arXiv:1808.09372
可复现性:本文 7 张图均由仓库中的 scripts/figures/pde-ml/03-variational.py 生成,在仓库根目录执行 python scripts/figures/pde-ml/03-variational.py 即可同时写入 EN/ZH 两侧的资源目录。
系列导航
| 部分 | 主题 |
|---|---|
| 1 | 物理信息神经网络 |
| 2 | 神经算子理论 |
| 3 | 变分原理与优化(本文) |
| 4 | 变分推断与 Fokker-Planck 方程 |
| 5 | 辛几何与保结构网络 |
| 6 | 连续归一化流与 Neural ODE |
| 7 | 扩散模型与 Score Matching |
| 8 | 反应扩散系统与 GNN |