PDE与机器学习（三）：变分原理与优化

当你训练一个神经网络时，你在做什么？调整几百万个参数？在高维空间中寻找最优点？这些描述都对，但都不够深刻。

换个视角：把神经网络看成一个粒子系统。每个神经元是一个粒子，训练过程是粒子在参数空间中的集体运动。当网络非常宽（成千上万个神经元）时，单个粒子的行为不重要，重要的是粒子的密度分布如何演化——就像研究气体时不跟踪每个分子，而是研究压强和温度。

这个视角的数学语言是偏微分方程。粒子密度 $\rho_t(\theta)$ 的演化由一个 PDE 描述——Vlasov 方程、Fokker-Planck 方程、或者更一般的 Wasserstein 梯度流。这不只是数学游戏，而是揭示了训练的全局性质：为什么过参数化有效？为什么梯度下降能找到好的解？初始化为什么重要？

更深一层，这个 PDE 视角连接了三个看似无关的领域：

变分法：从物理学的最小作用量原理，到现代的泛函优化；
最优传输：Wasserstein 距离测量概率分布的"搬运成本"；
统计力学：Mean-Field 理论描述大量粒子的集体行为。

本文将系统建立这一理论框架。从经典变分法的 Euler-Lagrange 方程出发，引入 Wasserstein 几何和梯度流理论，推导神经网络的 Mean-Field 方程，论述全局收敛性，并通过数值实验验证理论预测。

图 1. 在固定起点 $A=(0,0)$ 与终点 $B=(\pi, 2)$ 之间，几条候选曲线的下降时间 $T[y] = \int \sqrt{(1+y'^2)/(2gy)}\,dx$。摆线给出最小值——这正是变分法最经典的范例。

1. 变分法基础：从泛函到 Euler-Lagrange 方程

1.1 泛函与第一变分

变分法的核心对象是泛函——它接收一个函数作为输入，返回一个实数。普通函数吃数字，泛函吃整个函数。

定义（泛函）：设 $X$ 是函数空间（如 $C^1([a,b])$），泛函 $J : X \to \mathbb{R}$ 把每个函数 $y \in X$ 映射到一个实数 $J[y]$。

后文将反复出现的三个例子：

弧长泛函：曲线 $y(x)$ 在 $[a,b]$ 上的长度 $L[y] = \int_a^b \sqrt{1 + y'(x)^2}\, dx.$
旋转曲面面积：$A[y] = 2\pi \int_a^b y(x) \sqrt{1 + y'(x)^2}\, dx.$
作用量：质点轨迹 $q(t)$ 的作用量 $S[q] = \int_{t_0}^{t_1} L(q, \dot q, t)\, dt$，其中 $L$ 为 Lagrangian。

变分法的根本问题是：在所有满足边界条件的函数中，哪一个使 $J$ 取极值？

$$ \delta J[y; \eta] = \lim_{\varepsilon \to 0} \frac{J[y + \varepsilon \eta] - J[y]}{\varepsilon}. $$$$ \delta J[y; \eta] = \int \frac{\delta J}{\delta y}(x)\, \eta(x)\, dx, $$

$\delta J/\delta y$ 称为 $J$ 的变分导数或泛函导数。

$$ J[y] = \int_a^b F(x, y(x), y'(x))\, dx, $$$$ \frac{\partial F}{\partial y} - \frac{d}{dx}\frac{\partial F}{\partial y'} = 0. $$$$ \int_a^b \left(\frac{\partial F}{\partial y}\eta + \frac{\partial F}{\partial y'}\eta'\right) dx = 0. $$$$ \int_a^b \left(\frac{\partial F}{\partial y} - \frac{d}{dx}\frac{\partial F}{\partial y'}\right)\eta\, dx = 0 $$

对任意容许 $\eta$ 成立。变分法基本引理迫使括号内的表达式恒等为零，即 Euler-Lagrange 方程。$\square$

Euler-Lagrange 几何图像：左图为扰动族 $y + \varepsilon \eta$（$\eta$ 在端点为零）；右图为 $J(\varepsilon) = J[y+\varepsilon\eta]$ 的剖面，极值表现为 $\varepsilon = 0$ 处水平切线。

图 2. 第一变分论证的几何呈现。极值曲线是唯一一条这样的曲线：沿任何容许扰动方向的方向导数都为零。

1.2 经典案例：最速降线（Brachistochrone）

问题：在均匀重力场中，质点沿无摩擦曲线从 $A=(0,0)$ 滑到 $B$，哪条曲线使下降时间最短？

$$ T[y] = \int_0^{x_B} \frac{\sqrt{1 + y'(x)^2}}{\sqrt{2 g\, y(x)}}\, dx. $$$$ y(1 + y'^2) = \frac{1}{2gC^2} =: 2R. $$$$ x(\theta) = R(\theta - \sin\theta), \qquad y(\theta) = R(1 - \cos\theta) , $$

即半径为 $R$ 的圆沿直线滚动时圆周上一点的轨迹。图 1 中直线、抛物线、圆弧等其他候选曲线的下降时间都严格大于摆线。

1.3 Hamilton 原理与辛几何视角

$$ \frac{d}{dt}\frac{\partial L}{\partial \dot q} - \frac{\partial L}{\partial q} = 0 $$$$ \dot q = \frac{\partial H}{\partial p}, \qquad \dot p = -\frac{\partial H}{\partial q}. $$

辛二形式 $\omega = dp \wedge dq$ 沿流不变。第 7 节我们会再次见到这一结构，并对比它与梯度流的差别。

1.4 从泛函导数到梯度流

$$ \frac{\delta J}{\delta y} = \frac{\partial F}{\partial y} - \frac{d}{dx}\frac{\partial F}{\partial y'} . $$

例（Dirichlet 能量）：$J[u] = \tfrac12 \int |\nabla u|^2\, dx$，$\delta J/\delta u = -\Delta u$，极值条件 $\delta J/\delta u = 0$ 即 Laplace 方程 $\Delta u = 0$。

$$ \partial_t u = -\frac{\delta J}{\delta u}. $$

对 Dirichlet 能量，这就是热方程 $\partial_t u = \Delta u$。物理中的众多重要 PDE 都源于这种结构——而下一节我们将看到，即便状态不再是函数，而是一个概率测度，这种结构依然成立。

2. 梯度流理论与 Wasserstein 几何

2.1 欧氏空间中的梯度流

$$ \dot x(t) = -\nabla f(x(t)), $$

即最速下降的连续时间版本。三个性质后文反复使用：

能量耗散：$\dfrac{d}{dt} f(x(t)) = -\|\nabla f(x(t))\|^2 \leq 0$。
平衡点为 $f$ 的临界点；强凸时收敛到唯一极小值。
隐式欧拉离散：$x_{k+1} = \arg\min_x \{f(x) + \tfrac{1}{2\tau}\|x - x_k\|^2\}$。下面我们就把欧氏距离换成 Wasserstein 距离，得到 JKO 格式。

2.2 Wasserstein 距离

当系统状态是概率密度时，欧氏度量不再是自然选择，应该换成 Wasserstein-2 距离——它度量将一个分布"搬运"成另一个所需的最小代价。

$$ W_2^2(\rho_0, \rho_1) = \inf_{\gamma \in \Pi(\rho_0, \rho_1)} \int_{\mathbb{R}^d \times \mathbb{R}^d} |x - y|^2\, d\gamma(x, y), $$

其中 $\Pi(\rho_0, \rho_1)$ 是边缘为 $\rho_0, \rho_1$ 的联合分布全体。

Brenier 定理：若 $\rho_0$ 绝对连续，则最优耦合集中在某映射 $T = \nabla \varphi$ 的图上，$\varphi$ 凸，$\rho_1 = T_\# \rho_0$。

$$ W_2^2 = \|\mu_0 - \mu_1\|^2 + \mathrm{tr}\!\left(\Sigma_0 + \Sigma_1 - 2 (\Sigma_0^{1/2} \Sigma_1 \Sigma_0^{1/2})^{1/2}\right). $$

2.3 JKO 格式：$\mathcal{P}_2$ 上的梯度流

如何在概率测度空间上定义"梯度流"？Jordan、Kinderlehrer、Otto（1998）的回答是：把隐式欧拉中的 $\|\cdot\|$ 直接替换为 $W_2$。

$$ \rho_{k+1}^\tau \in \arg\min_{\rho} \left\{\mathcal{E}[\rho] + \frac{1}{2\tau} W_2^2(\rho, \rho_k^\tau)\right\}. $$

当 $\tau \to 0$ 时（如果极限存在），离散轨迹的极限称为 $\mathcal{E}$ 的 Wasserstein 梯度流。

2.4 热方程作为熵的梯度流

定理（Otto）：Boltzmann 熵 $\mathcal{H}[\rho] = \int \rho \log \rho\, dx$ 的 Wasserstein 梯度流恰为热方程 $\partial_t \rho = \Delta \rho$。

关键步骤：JKO 一阶最优性条件给出 $\delta \mathcal{H}/\delta \rho + \varphi/\tau = \text{常数}$，其中 $\varphi$ 是把 $\rho_k$ 推到 $\rho_{k+1}$ 的 Brenier 势。由 $\delta \mathcal{H}/\delta \rho = \log \rho + 1$ 知最优映射诱导的速度场为 $v = -\nabla \log \rho$。代入连续性方程 $\partial_t \rho + \nabla \cdot (\rho v) = 0$，即得 $\partial_t \rho = \nabla \cdot (\rho \nabla \log \rho) = \Delta \rho$。

同样的机器还能产出其他经典 PDE：

Fokker-Planck 方程：自由能 $\mathcal{F}[\rho] = \int V \rho + \int \rho \log \rho$ 的 Wasserstein 梯度流是 $\partial_t \rho = \nabla \cdot (\rho \nabla V) + \Delta \rho$，平衡解为 Gibbs 测度 $\rho_\infty \propto e^{-V}$。
多孔介质方程：内能 $\int \rho^m\, dx$ 的梯度流是 $\partial_t \rho = \Delta(\rho^m)$。
Keller-Segel 方程：加上吸引相互作用，得到趋化方程。

自由能 $F[\rho] = \int V \rho + \int \rho \log \rho$ 的 Wasserstein 梯度流：左图为密度快照，右图为沿流的能量耗散。

图 3. 一维 Fokker-Planck 数值仿真。密度 $\rho_t$ 在 $\mathcal{P}_2(\mathbb{R})$ 中沿自由能的最速下降方向移动，最终收敛到 Gibbs 平衡 $\rho_\ast \propto e^{-V}$。右图同时显示自由能差 $F[\rho_t] - F[\rho_\ast]$ 与均值漂移 $|\mathbb{E}\rho_t - \mu_\ast|$ 单调递减——梯度流的直接数值证据。

3. 神经网络训练的 Mean-Field 理论

3.1 从有限宽度到无限宽度

$$ f_\theta(x) = \frac{1}{m} \sum_{i=1}^m a_i \, \sigma(w_i^\top x + b_i), $$

参数 $\theta_i = (a_i, w_i, b_i)$，宽度 $m$。给定数据 $\{(x_k, y_k)\}_{k=1}^n$，经验风险为 $\hat R(\theta) = \frac{1}{n}\sum_k \ell(f_\theta(x_k), y_k)$，梯度下降按 $-\eta \nabla_{\theta_i} \hat R$ 更新每个 $\theta_i$。

粒子图像：把每个神经元视作参数空间中的一个粒子，训练就是 $m$ 粒子相互作用系统——它们通过 $f_\theta$ 共同决定损失而耦合。

$$ \rho_t^m := \frac{1}{m} \sum_{i=1}^m \delta_{\theta_i(t)} $$$$ f_{\rho_t^m}(x) = \int a\, \sigma(w^\top x + b)\, d\rho_t^m(\theta). $$

Mean-Field 极限：在适当尺度下（依参数化不同，学习率约为 $1/\sqrt m$ 或 $1/m$），若初始参数独立同分布于 $\rho_0$，则 $m \to \infty$ 时 $\rho_t^m \xrightharpoonup{} \rho_t$，极限密度 $\rho_t$ 满足 Mean-Field 方程（Vlasov / 连续性 PDE）。

两层 ReLU 网络的 Mean-Field 极限：宽度 $m \in \{20, 200, 2000\}$ 下，第一层权重的直方图随训练演化。

图 4. 经验权重分布 $\rho_t^m$ 随宽度增大而趋于光滑——到 $m = 2000$ 时已可视为对连续密度的采样，恰是 Vlasov 型理论所预言的 Mean-Field 极限。最右一列显示损失曲线：宽度越大收敛越快（过参数化效应）。

3.2 Mean-Field 方程的推导

$$ \mathcal{L}[\rho] = \frac{1}{n} \sum_{k=1}^n \ell(f_\rho(x_k), y_k), \quad f_\rho(x) = \int a\, \sigma(w^\top x + b)\, d\rho(\theta) . $$$$ \dot \theta_i = -\nabla_\theta \frac{\delta \mathcal{L}}{\delta \rho}\bigg|_{\rho = \rho_t^m}(\theta_i) . $$$$ \partial_t \rho + \nabla_\theta \cdot (\rho\, v_t) = 0, \qquad v_t(\theta) = -\nabla_\theta \frac{\delta \mathcal{L}}{\delta \rho}[\rho_t](\theta) . $$

这是一个确定性、非线性的密度演化 PDE。

3.3 全局收敛性

定理（Mei-Montanari-Nguyen 2018, Chizat-Bach 2018，结论性叙述）：在 (a) 充分过参数化（极限下 $\rho_0$ 支撑足够大）、(b) 数据点上 NTK 正定、(c) 初始化适当（如高斯）三条件下，Mean-Field 方程驱动损失到零。

证明骨架：在适当 regime 下，网络在初始化附近线性化，残差 $r_t(x) = f_{\rho_t}(x) - y(x)$ 满足 $\dot r = -K r$，$K \succeq \lambda_{\min}(K) I$，故 $\|r_t\|^2 \leq e^{-\lambda_{\min}(K) t} \|r_0\|^2$。

NTK 与 Mean-Field 的对比：两类典型 regime 描述同一两层网络的不同情形——

NTK / lazy regime（Jacot-Gabriel-Hongler 2018）：$m \to \infty$，学习率固定，参数几乎不动，网络在初始化附近线性化，等价于一个核方法。
Mean-Field regime：学习率随 $m$ 缩放，参数移动 $O(1)$，动力学真正非线性，呈现"特征学习"。

3.4 Wasserstein 梯度流形式

$$ \mathcal{L}[\rho] = \tfrac12 \int K(\theta, \theta')\, d\rho(\theta)\, d\rho(\theta') + \int g(\theta)\, d\rho(\theta) , $$

则 Mean-Field 方程恰好是 $\mathcal{L}$ 在 $\mathcal{P}_2$ 上的 Wasserstein 梯度流。这是"训练即 $\mathcal{P}_2$ 上的梯度流"最干净的依据：尽管损失对 $\theta$ 非凸，但在测度空间中可能具有 位移凸性（displacement convexity），从而保证全局收敛。

一个非凸 2-D 能量景观与从糟糕初始化出发的梯度流轨迹；右下子图给出能量沿流单调下降的耗散等式 $\dot E = -\|\nabla E\|^2$。

图 5. 能量非凸、有多个吸引盆，但梯度流沿其下降。这是高维神经网络训练的直观图像——只是在 Mean-Field 极限下，“参数 $\theta$” 的角色被整个密度 $\rho_t$ 取代。

3.5 深度网络的连续时间解释

$$ h_{\ell+1} = h_\ell + \tau\, F(h_\ell, \theta_\ell) $$$$ \min_F \int c(x, F(x))\, d\rho_X(x), \quad \text{约束} \ F_\# \rho_X = \rho_Y , $$

即学习一个把数据分布逐层"展平"、传输到分类器易于读取的目标分布的最优映射。

4. 变分推断与 ELBO

$$ \mathrm{ELBO}(q) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - \mathrm{KL}\!\left(q(z|x) \,\Vert\, p(z)\right) , $$

等价于最小化 $\mathrm{KL}(q(z|x)\,\Vert\,p(z|x))$——它是一个有约束的变分问题。当 $\mathcal{Q}$ 取所有密度时，最优解就是真实后验。

更妙的是，由第 2.4 节的视角，KL 散度 $\mathrm{KL}(\cdot\,\Vert\,p)$ 的 Wasserstein 梯度流正是 Fokker-Planck 方程，这正是扩散生成模型（diffusion）能与 VAE 共用一套理论工具的原因。

小型 VAE 在四模高斯混合上的 ELBO 分解：左图为重构损失 vs KL 正则项，中图为数据与重构对照，右图为隐空间编码与标准正态先验等高线。

图 6. 重构项与 KL 项方向相反——前者要 $\hat x \approx x$，后者要 $q(z|x) \approx p(z)$；二者之和（负 ELBO）就是变分目标。隐空间将四个数据模有序组织在标准正态先验内，正是 VAE 的预期行为。

5. 数值验证

下面汇总支撑前述理论的数值实验。所有四组实验都可由仓库中的 scripts/figures/pde-ml/03-variational.py 一键复现。

5.1 最速降线（图 1）

5 条候选下降曲线连接 $A=(0,0)$ 与 $B=(\pi, 2)$；用梯形法离散时间泛函 $T[y]$，按下降时间排序。摆线以明显优势胜出，既快于"最短路径"（直线），也快于"先陡后平"的候选。这一张图浓缩了变分法的全部精神：不同容许函数给出不同泛函值，唯有第一变分为零的那个使泛函取极。

5.2 第一变分论证（图 2）

取 Dirichlet 能量在 $[0,1]$ 上的极值 $y(x) = \sin(\pi x)$（端点为零）以及光滑扰动 $\eta(x) = \sin(2\pi x) \cdot x(1-x)$（端点为零）。绘出 $J(\varepsilon) = J[y + \varepsilon \eta]$ 关于 $\varepsilon$ 的曲线——抛物线，$\varepsilon = 0$ 处水平切线。这就是 Euler-Lagrange 方程的几何内涵。

5.3 Wasserstein 梯度流（图 3）

$$ \partial_t \rho = \nabla \cdot (\rho \nabla V) + \Delta \rho, \qquad V(x) = \tfrac12 (x - \mu_\ast)^2 . $$

初始密度是远离目标的尖锐高斯。仿真同时呈现三件事：

$\rho_t$ 在测度空间中向 Gibbs 目标 $\rho_\ast = \mathcal{N}(\mu_\ast, 1)$ 平移；
自由能 $F[\rho_t]$ 沿流单调递减（梯度流的能量耗散）；
均值与 $\mu_\ast$ 的差也单调递减——是一个"Wasserstein 距离的代理量"。

5.4 Mean-Field 极限（图 4）

两层 ReLU 网络在 64 个数据点上拟合 $f_\ast(x) = \sin(\pi x) + 0.5 \sin(3\pi x)$，宽度 $m \in \{20, 200, 2000\}$。三个训练快照（0、200、1500 epoch）下的第一层权重直方图随 $m$ 增大变得越来越光滑；$m = 2000$ 时已成为对一条连续密度的可信采样。最右一列的损失曲线显示宽度越大收敛越快——与 Mean-Field 过参数化理论一致。学习率取 $\propto 1/\sqrt m$，使每粒子漂移保持 $O(1)$，正是 Mean-Field regime 的正确尺度。

5.5 能量景观（图 5）

人为构造的二维非凸能量（带倾斜与三角函数"凸起"）演示梯度流的普适耗散律。RK45 积分得到的轨迹落入最低吸引盆，对应能量时间序列单调递减。把同样的图像扩展到百万维，就是关于神经网络训练的常用直观——只不过真实损失景观往往拥有大量更"平坦"的极小值（这一现象既贡献了泛化能力，也解释了 SGD 的成功）。

6. 另外两种几何：Fisher-Rao 与 Adam

6.1 Fisher-Rao 度量与自然梯度

$$ I(\theta) = \mathbb{E}_{p_\theta}\!\left[\nabla_\theta \log p_\theta(x)\, \nabla_\theta \log p_\theta(x)^\top\right] $$

诱导 Fisher-Rao 度量，相应的自然梯度流 $\dot \theta = -I(\theta)^{-1} \nabla_\theta J(\theta)$（Amari 1998）通常远快于普通梯度下降，因为它考虑了参数空间的内禀曲率。两种几何看世界的方式不同：

Wasserstein：度量"传输代价"，适合分布支撑发生平移的情形；
Fisher-Rao：度量"信息几何距离"，适合分布原地变形的情形。

近期的 Kernel Approximation of Fisher-Rao Gradient Flows 研究了如何用核方法近似 Fisher-Rao 梯度流，并将其应用于 Langevin 类采样算法。

6.2 Adam 作为重参数化的梯度流

$$ \dot \theta = -\frac{m_t}{\sqrt{v_t} + \epsilon}, \qquad \dot m_t = \alpha_1\big(\nabla J(\theta) - m_t\big), \qquad \dot v_t = \alpha_2\big(\|\nabla J(\theta)\|^2 - v_t\big), $$

即 $J$ 在坐标相关 Riemann 度量 $g_{ii}(\theta) = \sqrt{v_i(\theta)} + \epsilon$ 下的梯度流。这是自然梯度的对角近似——自适应学习率的本质，是一次度量的改换。

7. Hamilton 流 vs. 梯度流

一个关键提醒：并非所有流都是梯度流。同一个能量函数可以伴生两种性质完全相反的动力学。

同一个能量 $H(q,p) = \tfrac12 (q^2 + p^2)$ 上的两种流：左为 Hamilton 流，沿闭轨保持 $H$；右为梯度流，耗散 $H$ 并收敛到唯一极小。

图 7. 同一能量下的两种流。左：辛向量场 $\dot q = H_p, \dot p = -H_q$ 旋转相空间、保持能量——闭轨、不收敛。右：梯度场 $\dot q = -H_q, \dot p = -H_p$ 收缩所有轨道到原点。两者各有用途：梯度流刻画优化，辛流刻画守恒动力学并启发"结构保持"的神经 ODE 架构（详见本系列第 5 部分）。

8. 最新进展与开放问题

Mean-Field SGD：实际训练采用随机梯度，Mean-Field 方程多出噪声项，化为 McKean-Vlasov SDE；适量噪声加速收敛——它帮助逃离鞍点；噪声强度、批量大小与有效温度间存在涨落-耗散关系。详见 Mean-Field Analysis of Neural SGD-Ascent 。

多层 Mean-Field：对深度 $L$ 的网络，每层参数分布满足耦合 PDE 系统，分析远比两层情形复杂。ResNet 与残差连接相对易处理——它们对应一个离散时间最优传输格式，详见 Deep ResNets and Conditional Optimal Transport 。

双重下降与隐式偏差：过参数化网络泛化良好的部分原因，是梯度流在所有插值解中偏好最大熵的那个。如何为深度网络给出"最大熵"的恰当定义，仍是活跃方向。

Lyapunov 函数：一般收敛理论需要某个 $L[\rho_t]$，其耗散率可被下界。候选包括损失本身（仅在 PL 或凸条件下足够）、自由能、粒子间距离等。目前尚无统一选择能覆盖一般非凸深度情形。

9. 展望

PDE / 变分视角目前最活跃的几个方向：

理论：非凸损失下更精细的速率；有限宽度修正；注意力层的 PDE 理论；
算法：高阶 ODE/PDE 求解器作为新优化器；最优控制视角下的超参数调度；Wasserstein 感知的 MCMC；
应用：扩散生成模型 = 反向 Fokker-Planck；策略梯度 = 策略空间上的梯度流；Deep Ritz 与 PINN 把 PDE 求解化为变分问题；
跨学科：自旋玻璃类比；端到端优化的 Pontryagin 最大值原理；信息几何与辛几何在深度学习中的应用。

总结

我们从变分法出发，搭建了关于神经网络优化的 PDE 视角：泛函与 Euler-Lagrange 方程把离散优化与连续动力学联通；Wasserstein 几何为概率测度空间提供了自然度量，并把热方程、Fokker-Planck、多孔介质、Keller-Segel 等经典 PDE 统一为显式能量的梯度流；Mean-Field 极限把有限宽度神经网络的训练化为 Vlasov 型 PDE，并在合理假设下给出全局收敛保证；ELBO、Adam、Hamilton 动力学都可纳入同一变分框架。最速降线、一维 Fokker-Planck、宽度扫描、非凸能量景观、小型 VAE 这五组数值实验逐项印证理论。

PDE 视角仍处早期阶段。随着数学与机器学习继续相互渗透，它将为优化器设计、泛化分析与收敛证明提供越来越锐利的工具。

参考文献

L. Chizat and F. Bach, “On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport,” NeurIPS, 2018. arXiv:1805.09545
S. Mei, A. Montanari, P.-M. Nguyen, “A Mean Field View of the Landscape of Two-Layer Neural Networks,” PNAS, 2018. arXiv:1804.06561
G. M. Rotskoff and E. Vanden-Eijnden, “Neural Networks as Interacting Particle Systems,” arXiv:1805.00915, 2018.
A. Jacot, F. Gabriel, C. Hongler, “Neural Tangent Kernel: Convergence and Generalization in Neural Networks,” NeurIPS, 2018. arXiv:1806.07572
W. E and B. Yu, “The Deep Ritz Method,” CPAM, 2018. arXiv:1710.00211
R. T. Q. Chen et al., “Neural Ordinary Differential Equations,” NeurIPS, 2018. arXiv:1806.07366
L. Ambrosio, N. Gigli, G. Savaré, Gradient Flows in Metric Spaces and in the Space of Probability Measures, Birkhäuser, 2008.
C. Villani, Optimal Transport: Old and New, Springer, 2009.
R. Jordan, D. Kinderlehrer, F. Otto, “The Variational Formulation of the Fokker-Planck Equation,” SIAM J. Math. Anal., 1998.
F. Otto, “The Geometry of Dissipative Evolution Equations: the Porous Medium Equation,” Comm. PDE, 2001.
Y. Lu and J. Lu, “Mean-Field Analysis of Neural SGD-Ascent ,” 2024.
A. Kazeykina and M. Fornasier, “Kernel Approximation of Fisher-Rao Gradient Flows ,” 2024.
D. Onken et al., “Deep ResNets and Conditional Optimal Transport ,” 2024.
M. Belkin et al., “Reconciling Modern Machine Learning Practice and the Classical Bias-Variance Trade-off,” PNAS, 2019.
S. Amari, “Natural Gradient Works Efficiently in Learning,” Neural Computation, 1998.
D. P. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” ICLR, 2015. arXiv:1412.6980
L. Chizat, E. Oyallon, F. Bach, “On Lazy Training in Differentiable Programming,” NeurIPS, 2019. arXiv:1812.07956
G. Peyré and M. Cuturi, “Computational Optimal Transport,” Foundations and Trends in Machine Learning, 2019. arXiv:1803.00567
J. Sirignano and K. Spiliopoulos, “Mean Field Analysis of Neural Networks: A Central Limit Theorem,” Stoch. Proc. Appl., 2020. arXiv:1808.09372

可复现性：本文 7 张图均由仓库中的 scripts/figures/pde-ml/03-variational.py 生成，在仓库根目录执行 python scripts/figures/pde-ml/03-variational.py 即可同时写入 EN/ZH 两侧的资源目录。

系列导航

部分	主题
1	物理信息神经网络
2	神经算子理论
3	变分原理与优化（本文）
4	变分推断与 Fokker-Planck 方程
5	辛几何与保结构网络
6	连续归一化流与 Neural ODE
7	扩散模型与 Score Matching
8	反应扩散系统与 GNN