PDE & ML on Chen Kai Blog

PDE与机器学习（八）：反应扩散系统与GNN

Wed, 14 Aug 2024 09:00:00 +0000

本文你会学到

把 32 层 GCN 堆在一张引文网络上，准确率从 81% 跌到 20%，每个节点的特征向量都收敛到同一个点。这就是过度平滑——GNN 版本的"热寂"，而病因来自 PDE 教科书的第一章：一层 GCN 就是图上热方程的一步显式 Euler，热方程只有一个不动点：常数。解药 1952 年就有了。Alan Turing 证明，给一个扩散方程加上一个反应项，原本均匀的稳态可以自发地长出条纹、斑点、迷宫——同样的把戏（一个学得到的反应项）也能让深层 GNN 活下来。

PDE与机器学习（七）：扩散模型与Score Matching

Tue, 30 Jul 2024 09:00:00 +0000

本文你会学到

2020 年以来，扩散模型（Diffusion Models）已经成为生成式 AI 的主流：DALL·E 2、Stable Diffusion、Sora 都是它的变种。在它惊人的工程效果背后，是一套异常清爽的数学结构——扩散模型本质上就是偏微分方程（PDE）的数值求解器：

PDE与机器学习（六）：连续归一化流与Neural ODE

Mon, 15 Jul 2024 09:00:00 +0000

这一篇要讲什么

生成建模的本质问题非常几何：如何把一个简单分布（高斯）变成一个复杂分布（人脸、分子、动作）？ 离散归一化流一层一层堆可逆变换，但每层要算 Jacobian 行列式，代价 $O(d^3)$。Neural ODE 把"离散深度"换成连续 ODE；连续归一化流（CNF） 借用瞬时变量替换公式，把密度计算降到 $O(d)$；Flow Matching 进一步去掉散度积分，把训练变成对目标速度场的回归。

PDE与机器学习（五）：辛几何与保结构网络

Sun, 30 Jun 2024 09:00:00 +0000

这篇文章讲什么

用普通神经网络去拟合单摆的轨迹，训练误差可以做得很小，但只要把它往前积分几十秒，预测的摆要么慢慢停下来，要么一路加速冲到逃逸速度——能量本应严格守恒，可网络根本不知道"能量"为何物。问题不在数据、不在优化器、也不在网络深度。问题在架构：一个无约束的 MLP 可以表示任何向量场，包括违反物理的那些；向量场里只要存在一点点系统性偏差，长时间积分就会把它放大成宏观尺度上的能量漂移。

PDE与机器学习（四）：变分推断与Fokker-Planck方程

Sat, 15 Jun 2024 09:00:00 +0000

本文的七个维度

动机：为什么 VI 与 MCMC 看似不同，却在解同一个 PDE。
理论：从随机微分方程严格推导 Fokker-Planck 方程。
几何：KL 散度作为 Wasserstein 空间中的梯度流。
算法：Langevin Monte Carlo、平均场 VI、SVGD。
收敛：对数 Sobolev 不等式与指数收敛速率。
数值实验：7 张可复现图，附完整脚本。
应用：用 Langevin 采样近似贝叶斯神经网络后验。

你将学到

任意 Itô SDE 的概率密度满足 Fokker-Planck 方程。
Langevin 动力学作为采样算法的实用性，及其离散化误差。
在 Wasserstein 空间中最小化 $\mathrm{KL}(q\|p^\star)$ 本身就是 Fokker-Planck PDE。
变分推断与 Langevin MCMC 在连续时间下完全等价。
Stein 变分梯度下降（SVGD）：用确定性粒子求解变分推断。
用上述工具做贝叶斯神经网络的后验推断。

前置知识

概率论（贝叶斯定理、KL 散度、期望）。
第 3 篇的 Wasserstein 梯度流。
一点点随机分析直觉（布朗运动、Itô 积分）。
Python / PyTorch 用于实验。

1. 推断问题

贝叶斯推断要求后验

PDE与机器学习（三）：变分原理与优化

Fri, 31 May 2024 09:00:00 +0000

当你训练一个神经网络时，你在做什么？调整几百万个参数？在高维空间中寻找最优点？这些描述都对，但都不够深刻。

换个视角：把神经网络看成一个粒子系统。每个神经元是一个粒子，训练过程是粒子在参数空间中的集体运动。当网络非常宽（成千上万个神经元）时，单个粒子的行为不重要，重要的是粒子的密度分布如何演化——就像研究气体时不跟踪每个分子，而是研究压强和温度。

PDE与机器学习（二）：神经算子理论

Thu, 16 May 2024 09:00:00 +0000

经典 PDE 求解器——有限差分、有限元、谱方法——本质上是一个函数：喂给它一组初始条件和参数，吐回一组解。PINN 不过是把同一个函数披上了神经网络的外衣：每换一个初始条件，就要重新训练。机翼上的来流速度变了，或者预报里某个传感器读数挪了一格，时钟就得重新归零。

PDE与机器学习（一）：物理信息神经网络

Wed, 01 May 2024 09:00:00 +0000

本系列第一章 · 阅读用时约 35 分钟。 这一章是整个系列的"地基"——后面七章谈到的神经算子、变分原理、Score Matching，本质上都在重复同一个问题：怎样让神经网络的优化目标编码进物理或数学约束？ 把 PINN 啃透，后面就只剩"换一个约束"。