<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>PDE &amp; ML on Chen Kai Blog</title><link>https://www.chenk.top/zh/pde-ml/</link><description>Recent content in PDE &amp; ML on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 14 Aug 2024 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/pde-ml/index.xml" rel="self" type="application/rss+xml"/><item><title>PDE与机器学习（八）：反应扩散系统与GNN</title><link>https://www.chenk.top/zh/pde-ml/08-%E5%8F%8D%E5%BA%94%E6%89%A9%E6%95%A3%E7%B3%BB%E7%BB%9F%E4%B8%8Egnn/</link><pubDate>Wed, 14 Aug 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/08-%E5%8F%8D%E5%BA%94%E6%89%A9%E6%95%A3%E7%B3%BB%E7%BB%9F%E4%B8%8Egnn/</guid><description>&lt;h2 id="本文你会学到">本文你会学到&lt;/h2>
&lt;p>把 32 层 GCN 堆在一张引文网络上，准确率从 81% 跌到 20%，每个节点的特征向量都收敛到同一个点。这就是&lt;strong>过度平滑&lt;/strong>——GNN 版本的&amp;quot;热寂&amp;quot;，而病因来自 PDE 教科书的第一章：&lt;strong>一层 GCN 就是图上热方程的一步显式 Euler&lt;/strong>，热方程只有一个不动点：常数。解药 1952 年就有了。Alan Turing 证明，给一个扩散方程加上一个&lt;strong>反应项&lt;/strong>，原本均匀的稳态可以自发地长出条纹、斑点、迷宫——同样的把戏（一个&lt;strong>学得到&lt;/strong>的反应项）也能让深层 GNN 活下来。&lt;/p></description></item><item><title>PDE与机器学习（七）：扩散模型与Score Matching</title><link>https://www.chenk.top/zh/pde-ml/07-%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E4%B8%8Escore-matching/</link><pubDate>Tue, 30 Jul 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/07-%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E4%B8%8Escore-matching/</guid><description>&lt;h2 id="本文你会学到">本文你会学到&lt;/h2>
&lt;p>2020 年以来，&lt;strong>扩散模型&lt;/strong>（Diffusion Models）已经成为生成式 AI 的主流：DALL·E 2、Stable Diffusion、Sora 都是它的变种。在它惊人的工程效果背后，是一套异常清爽的数学结构——&lt;strong>扩散模型本质上就是偏微分方程（PDE）的数值求解器&lt;/strong>：&lt;/p></description></item><item><title>PDE与机器学习（六）：连续归一化流与Neural ODE</title><link>https://www.chenk.top/zh/pde-ml/06-%E8%BF%9E%E7%BB%AD%E5%BD%92%E4%B8%80%E5%8C%96%E6%B5%81%E4%B8%8Eneural-ode/</link><pubDate>Mon, 15 Jul 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/06-%E8%BF%9E%E7%BB%AD%E5%BD%92%E4%B8%80%E5%8C%96%E6%B5%81%E4%B8%8Eneural-ode/</guid><description>&lt;h2 id="这一篇要讲什么">这一篇要讲什么&lt;/h2>
&lt;p>生成建模的本质问题非常几何：&lt;strong>如何把一个简单分布（高斯）变成一个复杂分布（人脸、分子、动作）？&lt;/strong> 离散归一化流一层一层堆可逆变换，但每层要算 Jacobian 行列式，代价 $O(d^3)$。&lt;strong>Neural ODE&lt;/strong> 把&amp;quot;离散深度&amp;quot;换成连续 ODE；&lt;strong>连续归一化流（CNF）&lt;/strong> 借用&lt;em>瞬时&lt;/em>变量替换公式，把密度计算降到 $O(d)$；&lt;strong>Flow Matching&lt;/strong> 进一步去掉散度积分，把训练变成对目标速度场的回归。&lt;/p></description></item><item><title>PDE与机器学习（五）：辛几何与保结构网络</title><link>https://www.chenk.top/zh/pde-ml/05-%E8%BE%9B%E5%87%A0%E4%BD%95%E4%B8%8E%E4%BF%9D%E7%BB%93%E6%9E%84%E7%BD%91%E7%BB%9C/</link><pubDate>Sun, 30 Jun 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/05-%E8%BE%9B%E5%87%A0%E4%BD%95%E4%B8%8E%E4%BF%9D%E7%BB%93%E6%9E%84%E7%BD%91%E7%BB%9C/</guid><description>&lt;h2 id="这篇文章讲什么">这篇文章讲什么&lt;/h2>
&lt;p>用普通神经网络去拟合单摆的轨迹，训练误差可以做得很小，但只要把它往前积分几十秒，预测的摆要么慢慢停下来，要么一路加速冲到逃逸速度——能量本应严格守恒，可网络根本不知道&amp;quot;能量&amp;quot;为何物。问题不在数据、不在优化器、也不在网络深度。&lt;strong>问题在架构&lt;/strong>：一个无约束的 MLP 可以表示任何向量场，包括违反物理的那些；向量场里只要存在一点点系统性偏差，长时间积分就会把它放大成宏观尺度上的能量漂移。&lt;/p></description></item><item><title>PDE与机器学习（四）：变分推断与Fokker-Planck方程</title><link>https://www.chenk.top/zh/pde-ml/04-%E5%8F%98%E5%88%86%E6%8E%A8%E6%96%AD%E4%B8%8Efokker-planck%E6%96%B9%E7%A8%8B/</link><pubDate>Sat, 15 Jun 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/04-%E5%8F%98%E5%88%86%E6%8E%A8%E6%96%AD%E4%B8%8Efokker-planck%E6%96%B9%E7%A8%8B/</guid><description>&lt;h2 id="本文的七个维度">本文的七个维度&lt;/h2>
&lt;ol>
&lt;li>&lt;strong>动机&lt;/strong>：为什么 VI 与 MCMC 看似不同，却在解同一个 PDE。&lt;/li>
&lt;li>&lt;strong>理论&lt;/strong>：从随机微分方程严格推导 Fokker-Planck 方程。&lt;/li>
&lt;li>&lt;strong>几何&lt;/strong>：KL 散度作为 Wasserstein 空间中的梯度流。&lt;/li>
&lt;li>&lt;strong>算法&lt;/strong>：Langevin Monte Carlo、平均场 VI、SVGD。&lt;/li>
&lt;li>&lt;strong>收敛&lt;/strong>：对数 Sobolev 不等式与指数收敛速率。&lt;/li>
&lt;li>&lt;strong>数值实验&lt;/strong>：7 张可复现图，附完整脚本。&lt;/li>
&lt;li>&lt;strong>应用&lt;/strong>：用 Langevin 采样近似贝叶斯神经网络后验。&lt;/li>
&lt;/ol>
&lt;h2 id="你将学到">你将学到&lt;/h2>
&lt;ul>
&lt;li>任意 Itô SDE 的概率密度满足 Fokker-Planck 方程。&lt;/li>
&lt;li>Langevin 动力学作为采样算法的实用性，及其离散化误差。&lt;/li>
&lt;li>在 Wasserstein 空间中最小化 $\mathrm{KL}(q\|p^\star)$ &lt;strong>本身就是&lt;/strong> Fokker-Planck PDE。&lt;/li>
&lt;li>变分推断与 Langevin MCMC 在连续时间下完全等价。&lt;/li>
&lt;li>Stein 变分梯度下降（SVGD）：用确定性粒子求解变分推断。&lt;/li>
&lt;li>用上述工具做贝叶斯神经网络的后验推断。&lt;/li>
&lt;/ul>
&lt;h2 id="前置知识">前置知识&lt;/h2>
&lt;ul>
&lt;li>概率论（贝叶斯定理、KL 散度、期望）。&lt;/li>
&lt;li>第 3 篇的 Wasserstein 梯度流。&lt;/li>
&lt;li>一点点随机分析直觉（布朗运动、Itô 积分）。&lt;/li>
&lt;li>Python / PyTorch 用于实验。&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-推断问题">1. 推断问题&lt;/h2>
&lt;p>贝叶斯推断要求后验&lt;/p></description></item><item><title>PDE与机器学习（三）：变分原理与优化</title><link>https://www.chenk.top/zh/pde-ml/03-%E5%8F%98%E5%88%86%E5%8E%9F%E7%90%86%E4%B8%8E%E4%BC%98%E5%8C%96/</link><pubDate>Fri, 31 May 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/03-%E5%8F%98%E5%88%86%E5%8E%9F%E7%90%86%E4%B8%8E%E4%BC%98%E5%8C%96/</guid><description>&lt;p>当你训练一个神经网络时，你在做什么？调整几百万个参数？在高维空间中寻找最优点？这些描述都对，但都不够深刻。&lt;/p>
&lt;p>换个视角：&lt;strong>把神经网络看成一个粒子系统&lt;/strong>。每个神经元是一个粒子，训练过程是粒子在参数空间中的集体运动。当网络非常宽（成千上万个神经元）时，单个粒子的行为不重要，重要的是粒子的&lt;strong>密度分布&lt;/strong>如何演化——就像研究气体时不跟踪每个分子，而是研究压强和温度。&lt;/p></description></item><item><title>PDE与机器学习（二）：神经算子理论</title><link>https://www.chenk.top/zh/pde-ml/02-%E7%A5%9E%E7%BB%8F%E7%AE%97%E5%AD%90%E7%90%86%E8%AE%BA/</link><pubDate>Thu, 16 May 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/02-%E7%A5%9E%E7%BB%8F%E7%AE%97%E5%AD%90%E7%90%86%E8%AE%BA/</guid><description>&lt;p>经典 PDE 求解器——有限差分、有限元、谱方法——本质上是一个函数：喂给它一组初始条件和参数，吐回一组解。PINN 不过是把同一个函数披上了神经网络的外衣：每换一个初始条件，就要重新训练。机翼上的来流速度变了，或者预报里某个传感器读数挪了一格，时钟就得重新归零。&lt;/p></description></item><item><title>PDE与机器学习（一）：物理信息神经网络</title><link>https://www.chenk.top/zh/pde-ml/01-%E7%89%A9%E7%90%86%E4%BF%A1%E6%81%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/</link><pubDate>Wed, 01 May 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/pde-ml/01-%E7%89%A9%E7%90%86%E4%BF%A1%E6%81%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>本系列第一章 · 阅读用时约 35 分钟。&lt;/strong> 这一章是整个系列的&amp;quot;地基&amp;quot;——后面七章谈到的神经算子、变分原理、Score Matching，本质上都在重复同一个问题：&lt;strong>怎样让神经网络的优化目标编码进物理或数学约束？&lt;/strong> 把 PINN 啃透，后面就只剩&amp;quot;换一个约束&amp;quot;。&lt;/p></description></item></channel></rss>