
泛函分析(十二):泛函分析在行动 —— 偏微分方程和量子力学
Lax-Milgram 定理用于椭圆型偏微分方程,变分方法,量子可观测量作为自伴算子,以及 Stone 定理 —— 抽象理论与具体应用的交汇点。
工具箱兑现#
我开始写这个系列时给自己定了一条规矩:每一篇的抽象都必须最终回到一个具体的应用问题。十一篇下来这条线一直绷着——度量空间是为了讨论函数空间的距离,赋范空间为了引入算子范数,Hilbert 空间为了恢复几何,对偶为了 Hahn-Banach,弱拓扑为了变分紧性,三大定理为了刚性结果,紧算子为了谱分解,谱定理为了量子可观测量,半群为了演化方程,分布与 Sobolev 空间为了弱解。每一步都是因为某个具体问题需要它才被引入。这一篇就是兑现的时候。

我想用三个问题串起整个工具箱。第一,在有界 Lipschitz 区域 $\Omega$ 上解 $-\Delta u = f$ 配 Dirichlet 边值条件——经典 PDE 的入门题。这个问题在“数据要光滑”的经典理论里非常麻烦;在 Lax-Milgram + Sobolev 空间的框架下变成一个 Hilbert 空间的简单引理,三行就能写下解的存在唯一性,再加一段 Cea 引理就有完整的有限元收敛理论。第二,能量泛函的极小化问题——非线性变分法的入门题。直接方法在 Banach 空间里跑不动(紧不够),切换到 Hilbert 空间或自反 Banach 空间后立刻顺畅:弱紧性 + 弱下半连续性 + 强制性,三步给出极小值点。第三,Schrödinger 方程的求解——量子动力学的入门题。这里 Stone 定理把“自共轭算子 $H$ ”和“强连续幺正群 $e^{-itH/\hbar}$ ”一一对应起来,方程的解直接从谱测度积分得到,能量守恒和概率守恒都是幺正性的免费推论。
每个问题都展示同一种模式:把具体问题翻译成抽象 Hilbert 或 Banach 空间问题、调用前面建好的定理、再翻译回具体答案。这不是一种节省时间的小技巧,而是泛函分析的核心价值。同样的 Lax-Milgram 处理 Dirichlet 问题、Stokes 方程、Maxwell 方程、弹性问题、对流扩散方程;同样的直接方法处理最小曲面、Yamabe 问题、规定标量曲率、最优传输;同样的 Stone 定理把 Schrödinger 方程、Maxwell 方程、Klein-Gordon 方程组织成同一个幺正动力学。
十一篇文章的时间很长,都在构建基础设施。赋范空间、Banach 和 Hilbert 结构、对偶空间、弱拓扑、有界和无界算子、谱定理、半群、分布、Sobolev 空间 —— 每一章都以一个干净的抽象结果为回报,但读者可能会疑惑这些抽象何时能派上用场。这篇文章将兑现系列文章隐含的承诺:我们建立的每一个定理都是因为某些具体问题的需求而建立的,把这些线索整合起来就得到了现代偏微分方程和量子力学的工具箱。
现代偏微分方程理论有两个支柱。Lax-Milgram 定理将一大类椭圆方程的解的存在性转化为一个 Hilbert 空间的引理;给定一个估计(强制性)和一个连续性界,解的存在性和唯一性无需任何经典正则性假设即可保证。Galerkin 方法则将同样的变分恒等式转化为可计算的有限维线性系统,并提供显式的误差界 —— 整个有限元方法,即计算工程中的主力,是其推论。
另外两个支柱支撑着量子力学。无界自伴算子的谱定理表明,量子力学中的任何可观测量 —— 能量、位置、角动量 —— 都有一个实谱和一个投影值测度,决定了所有测量统计。Stone 定理说,任何单参数酉对称群都来自一个自伴生成器,因此对称性和守恒量是完全相同的数据。Schrodinger 方程随之自动得出:它是 Hamiltonian 生成的酉群,而酉性是概率守恒。整个框架如此紧密,以至于几乎令人尴尬的是,只需添加很少的物理内容。
在这篇最终的文章中,我想传达的不是综述,而是架构的感觉。学习泛函分析的原因不是为了求解 Poisson 方程 —— 对于这个特定方程有更好的工具。原因是相同的架构通过仅改变双线性形式和 Hilbert 空间的选取,可以解决 Stokes 方程、Maxwell 方程、弹性方程、线性化的 Navier-Stokes 方程、热方程、波动方程、Schrodinger 方程、Klein-Gordon 方程,以及数学物理中的每个线性偏微分方程。这种统一性就是奖赏。
回报:分析服务于应用#
泛函分析在 20 世纪初从两个汇聚的需求中诞生:严格求解积分和微分方程的需求(Fredholm, Hilbert, Riesz),以及量子力学所需的数学框架(von Neumann, Dirac, Stone)。我们开发的工具 —— 完备性、对偶性、谱分解、弱导数 —— 是因为具体问题需要它们而创建的。
思想的流动始终是双向的。偏微分方程理论激发了 Sobolev 空间和分布理论。量子力学要求无界自伴算子和谱定理。一旦发展出抽象理论,它揭示了从具体方面看不见的联系和简化:Lax-Milgram 定理统一了数十种不同椭圆方程的存在性证明,而 Stone 定理显示 Schrodinger 方程和 Maxwell 方程共享相同的抽象结构。

Lax-Milgram 定理和椭圆边值问题#
从经典 PDE 到 Hilbert 空间问题#
我第一次看 Lax-Milgram 定理时被它的“突然”震到了:经典 PDE 教科书要花半本书铺垫的存在唯一性,Lax-Milgram 用一个 Hilbert 空间引理三行写完。这种压缩不是奇迹,而是把所有难点都搬到了“怎样把 PDE 翻译成弱形式”和“怎样验证强制性”这两个准备工作里。Lax-Milgram 本身只负责最后一步——把准备好的双线性形式翻译成解的存在性。
具体的翻译模式如下。给一个椭圆方程比如 $-\Delta u = f$ 配 Dirichlet 边界条件 $u|_{\partial\Omega} = 0$ 。乘一个测试函数 $v \in C_c^\infty(\Omega)$ 再分部积分,得到 $\int \nabla u \cdot \nabla v = \int fv$ 。这是“弱形式”:不再要求 $u$ 是 $C^2$ 的,只要它的弱梯度 $\nabla u$ 在 $L^2$ 中、并且这条积分恒等式对所有 $v \in H^1_0(\Omega)$ 成立就够了。$H^1_0$ 是 Sobolev 空间(第十一篇),双线性形式 $a(u,v) = \int \nabla u \cdot \nabla v$ 在 $H^1_0$ 上是连续的(Cauchy-Schwarz)和强制的(Poincare 不等式)。Lax-Milgram 立刻给出唯一弱解。
这套模板的好处是它对“算子的具体形式”几乎不敏感。把 Laplace 算子换成一般的散度形式 $-\nabla \cdot (A(x) \nabla u)$ ($A$ 是椭圆系数矩阵),双线性形式变成 $a(u,v) = \int A \nabla u \cdot \nabla v$ ,强制性由椭圆性给出,Lax-Milgram 仍然适用。换成对流扩散方程 $-\Delta u + \mathbf{b} \cdot \nabla u = f$ ,加一项一阶导数让双线性形式不再对称,但只要一阶项相对二阶项足够小,强制性仍然成立——Lax-Milgram 处理对称和非对称双线性形式不偏不倚。Stokes 方程、Maxwell 方程、线性弹性都能装进这个模板,只是 Hilbert 空间和双线性形式各自换。
定理#

可以证明,设 $V$ 是一个实 Hilbert 空间。设 $a: V \times V \to \mathbb{R}$ 是一个满足以下条件的双线性形式:
- 连续性(有界性): 存在 $M > 0$ 使得对于所有 $u, v \in V$ 有 $|a(u, v)| \le M\|u\|\|v\|$ 。
- 强制性: 存在 $\alpha > 0$ 使得对于所有 $u \in V$ 有 $a(u, u) \ge \alpha\|u\|^2$ 。
设 $F: V \to \mathbb{R}$ 是一个有界的线性泛函。那么存在唯一的 $u \in V$ 使得
$$ a(u, v) = F(v) \quad \text{对于所有 } v \in V. $$此外,$\|u\| \le \frac{1}{\alpha}\|F\|_{V^*}$ 。

注意:与 Riesz 表示定理不同,双线性形式 $a$ 不必是对称的。这是使 Lax-Milgram 适用于非对称问题的关键推广,例如对流扩散方程:$-\Delta u + \mathbf{b}\cdot\nabla u = f$ 由于一阶项 $\mathbf{b}\cdot\nabla u$ 而具有非对称形式,但 Lax-Milgram 仍然适用(前提是 $\mathbf{b}$ 相对于 Laplacian 足够小,以保持强制性)。
证明#
证明: 根据 Riesz 表示定理,对于每个固定的 $u \in V$ ,映射 $v \mapsto a(u, v)$ 是 $V$ 上的有界线性泛函(由 $a$ 的连续性),因此存在唯一的 $Au \in V$ 使得
$$ a(u, v) = \langle Au, v \rangle \quad \text{对于所有 } v \in V. $$映射 $A: V \to V$ 是线性的(由 $a$ 的双线性性)且有界:$\|Au\| = \sup_{\|v\|=1} |\langle Au, v \rangle| = \sup_{\|v\|=1} |a(u,v)| \le M\|u\|$ 。
同样地,根据 Riesz,存在 $f \in V$ 使得对于所有 $v$ 有 $F(v) = \langle f, v \rangle$ 。方程 $a(u, v) = F(v)$ 对于所有 $v$ 变成 $\langle Au, v \rangle = \langle f, v \rangle$ 对于所有 $v$ ,即 $Au = f$ 。需要证明 $A$ 是双射。
强制性给出 $\alpha\|u\|^2 \le a(u, u) = \langle Au, u \rangle \le \|Au\|\|u\|$ ,所以对于所有 $u$ 有 $\|Au\| \ge \alpha\|u\|$ 。如果 $Au = 0$ 则 $u = 0$ 。
估计 $\|Au\| \ge \alpha\|u\|$ 意味着 $A$ 有闭值域。确实,如果 $Au_n \to y$ ,则 $(u_n)$ 是 Cauchy 序列(因为 $\|u_n - u_m\| \le \alpha^{-1}\|Au_n - Au_m\|$ ),所以 $u_n \to u$ 对于某个 $u \in V$ ,并且 $Au = y$ 由 $A$ 的连续性。
假设 $y \perp \text{Range}(A)$ ,即对于所有 $u$ 有 $\langle Au, y \rangle = 0$ 。取 $u = y$ :$0 = \langle Ay, y \rangle = a(y, y) \ge \alpha\|y\|^2$ ,所以 $y = 0$ 。因此 $\text{Range}(A)^\perp = \{0\}$ ,意味着 $\text{Range}(A)$ 是稠密的。
由于 $\text{Range}(A)$ 既是闭的又是稠密的,$\text{Range}(A) = V$ 。所以 $A$ 是双射,$u = A^{-1}f$ 是唯一解。由强制性估计得到 $\|u\| \le \alpha^{-1}\|Au\| = \alpha^{-1}\|f\| = \alpha^{-1}\|F\|_{V^*}$ 。$\square$
证明很短,但每一步都使用了前十一篇文章的内容:Riesz 表示(第 3 章)、有界性(第 6 章)、闭值域定理(第 6 章再次)、正交分解(第 3 章)。这就是我所说的基础设施建设的意义:一旦基础设施到位,Lax-Milgram 定理几乎变得微不足道,而这正是重点所在。
应用于椭圆偏微分方程#
设 $\Omega \subset \mathbb{R}^n$ 是有 Lipschitz 边界的有界区域。考虑
$$ \begin{cases} -\Delta u = f & \text{在 } \Omega, \\ u = 0 & \text{在 } \partial\Omega, \end{cases} $$其中 $f \in L^2(\Omega)$ 。
乘以 $v \in H_0^1(\Omega)$ 并进行分部积分:
$$ \int_\Omega \nabla u \cdot \nabla v \, dx = \int_\Omega fv \, dx \quad \text{对于所有 } v \in H_0^1(\Omega). $$设 $V = H_0^1(\Omega)$ ,$a(u, v) = \int_\Omega \nabla u \cdot \nabla v \, dx$ ,和 $F(v) = \int_\Omega fv \, dx$ 。
- 连续性: $|a(u, v)| \le \|\nabla u\|_{L^2}\|\nabla v\|_{L^2} \le \|u\|_{H^1}\|v\|_{H^1}$ ,所以 $M = 1$ 。
- 强制性: 由 Poincare 不等式,对于 $u \in H_0^1(\Omega)$ 有 $\|u\|_{L^2} \le C_P\|\nabla u\|_{L^2}$ ,因此 $\|u\|_{H^1}^2 \le (1 + C_P^2)\|\nabla u\|_{L^2}^2 = (1 + C_P^2) a(u, u)$ ,所以 $a(u, u) \ge \alpha\|u\|_{H^1}^2$ 其中 $\alpha = 1/(1 + C_P^2)$ 。
- F 的有界性: $|F(v)| \le \|f\|_{L^2}\|v\|_{L^2} \le \|f\|_{L^2}\|v\|_{H^1}$ 。
Lax-Milgram 适用,得到唯一的弱解 $u \in H_0^1(\Omega)$ 且 $\|u\|_{H^1} \le (1 + C_P^2)\|f\|_{L^2}$ 。这是在任何有界 Lipschitz 区域上的 Dirichlet 问题的存在性和唯一性,数据不需要光滑,也不涉及构造过程。与经典的存性理论(Perron 方法,扫除法)相比,这需要更多的工作并产生较少的结果。
取一维中的 $\Omega = (0, 1)$ 和 $f \equiv 1$ 。经典解是 $u(x) = \tfrac{1}{2}x(1-x)$ ,它属于 $H_0^1$ 且 $\|\nabla u\|_{L^2}^2 = \int_0^1 (1/2 - x)^2\,dx = 1/12$ 以及 $\|u\|_{L^2}^2 = \int_0^1 \tfrac{1}{4}x^2(1-x)^2\,dx = 1/120$ 。因此 $\|u\|_{H^1}^2 = 11/120 \approx 0.092$ ,Lax-Milgram 界限给出 $\|u\|_{H^1} \le (1 + C_P^2)\|f\|_{L^2} = (1 + 1/\pi^2) \approx 1.10$ —— 这是一个非常宽松的界限,但在正确的数量级内。实际范数大约是界限的四分之一。
取 $\Omega$ 为单位圆盘且 $f \equiv 1$ ;解是径向对称的 $u(r) = (1 - r^2)/4$ 。则 $\|\nabla u\|_{L^2(\Omega)}^2 = \int_0^1 r/4 \cdot 2\pi r\,dr = \pi/16$ ,$\|u\|_{L^2(\Omega)}^2 = \int_0^1 (1-r^2)^2/16 \cdot 2\pi r\,dr = \pi/96$ ,因此能量是 $J(u) = \pi/32 - \int u\,dx = \pi/32 - \pi/8 = -3\pi/32$ 。变分特征说明这是 $H_0^1(\Omega)$ 上 $J$ 的最小值。任何其他 $v \in H_0^1$ 给出更大的 $J(v)$ 。这是一个有时可以用作数值证书的性质:一个以小残差解变分恒等式的候选解 $u$ 必须接近真实极小值。
变体#
如果边界条件是 $u = g$ 在 $\partial\Omega$ 上且 $g$ 在迹空间 $H^{1/2}(\partial\Omega)$ 中,找到 $G \in H^1(\Omega)$ 使得 $\gamma_0 G = g$ (由迹算子的满射性可知可能)。设 $w = u - G$ ;则 $w \in H_0^1$ 满足 $-\Delta w = f + \Delta G$ —— 一个齐次 Dirichlet 问题,带有修改后的数据 —— Lax-Milgram 适用于它。
对于 Neumann 问题,考虑 $-\Delta u = f$ 且 $\partial u/\partial n = g$ 。双线性形式相同但 $V = H^1(\Omega)/\mathbb{R}$ (商掉常数,因为常数在核中)且数据是 $F(v) = \int fv + \int_{\partial\Omega} gv$ ,需要相容条件 $\int f + \int_{\partial\Omega} g = 0$ 。
对于一般椭圆算子 $-\sum_{i,j}\partial_j(a_{ij}\partial_i u) + \sum_i b_i \partial_i u + cu = f$ ,具有满足椭圆性($\sum a_{ij}\xi_i\xi_j \ge \lambda|\xi|^2$ 且 $\lambda > 0$ )的可测系数 $a_{ij}$ —— Lax-Milgram 适用,只要低阶项足够小或符号正确。
变分方法#
从偏微分方程到优化#
变分方法的核心观察是:很多 PDE 不是凭空写出来的,而是某个能量泛函的临界点条件。Dirichlet 能量 $\frac{1}{2}\int|\nabla u|^2 - \int fu$ 的 Euler-Lagrange 方程是 $-\Delta u = f$ ;最小曲面能量 $\int\sqrt{1+|\nabla u|^2}$ 的 Euler-Lagrange 方程是平均曲率方程;弹性能量给出弹性方程;Maxwell 作用量给出 Maxwell 方程。把 PDE 看作能量泛函的临界点比把它看成一个独立方程要更结构化——临界点要么是极小值要么是鞍点,要么是最大值,每种情形的存在性论证不同。
这种视角的好处是把 PDE 存在性问题归约到优化问题。极小值点的存在性可以用紧性论证(直接方法);鞍点存在性可以用 mountain pass 引理或者 minimax 方法;多临界点可以用 Lyusternik-Schnirelmann 范畴。每种方法都需要把能量泛函放到合适的 Hilbert 或自反 Banach 空间上做紧性论证,而这就是为什么 Sobolev 空间和弱拓扑成为变分法的标准设定。下面把直接方法详细展开,因为它最常用、最典型。

许多偏微分方程作为能量泛函的 Euler-Lagrange 方程出现。考虑能量
$$ J(u) = \frac{1}{2}\int_\Omega |\nabla u|^2 \, dx - \int_\Omega fu \, dx $$定义在 $V = H_0^1(\Omega)$ 上。它在 $u$ 处沿方向 $v$ 的一阶变分(Frechet 导数)是
$$ J'(u)(v) = \int_\Omega \nabla u \cdot \nabla v \, dx - \int_\Omega fv \, dx. $$设 $J'(u) = 0$ 得到 $-\Delta u = f$ 的弱形式。因此弱解正是 $J$ 的临界点。

变分法直接方法#
当双线性形式是对称的(如 Dirichlet 能量),弱解不仅是临界点还是 $J$ 的极小值点。直接方法 寻找极小值点:
- 证明 $J$ 有下界。
- 证明 $J$ 是强制的:$\|u\| \to \infty$ 时 $J(u) \to \infty$ 。这从 $J(u) \ge \frac{1}{2}\|\nabla u\|_{L^2}^2 - \|f\|_{L^2}\|u\|_{L^2} \ge \frac{1}{2}\alpha\|u\|_{H^1}^2 - C\|u\|_{H^1}$ 得出 —— 二次项占主导。
- 取极小化序列 $u_n$ 使得 $J(u_n) \to \inf J$ 。强制性界定了 $\|u_n\|$ ,因此由 Hilbert 空间的自反性,子序列弱收敛:$u_n \rightharpoonup u$ 。
- 证明 $J$ 是弱下半连续的:$J(u) \le \liminf J(u_n)$ 。对于凸强制的 $J$ 这是自动的,因为 $u \mapsto \|\nabla u\|_{L^2}^2$ 是凸且连续的,因此弱下半连续。
- 得出 $J(u) = \inf J$ ,因此 $u$ 是极小值点。
非对称情况(Lax-Milgram)不能归结为极小化问题,但存在性理论的工作方式相同;只是无法将解解释为能量极小值。
Hilbert 的第十九和第二十个问题#
Hilbert 的第十九个问题(1900 年)问是否正则变分问题的极小值总是解析的。Hilbert 的第二十个问题问:每个 Dirichlet 类型的变分问题都有解吗?
第二个问题的答案是:是的,只要在正确的空间中寻找。20 世纪初的经典分析家没有这样的空间,存在性理论陷入特殊情况。Beppo Levi(1906 年)和后来的 Tonelli(1923 年)澄清了自然设置是现在称为 $H^1$ 的空间 —— 能量积分 $\int|\nabla u|^2$ 有限的函数。该空间的完备性(我们在第 11 章中证明过)是必不可少的:没有它,极小化序列就没有极限。弱下半连续性也是必不可少的:没有它,极限不必是极小值点。这两种成分都需要再半个世纪才能成熟的泛函分析基础设施。
这一历史事件说明了为什么需要泛函分析。变分方法处理偏微分方程需要函数空间的 完备性 和 紧性 性质(Hilbert 空中有界集的弱紧性),而这正是泛函分析提供的工具。
Galerkin 方法#
变分公式自然导致近似方法。选择有限维子空间 $V_h \subset V$ (例如有限元空间)并求解
$$ a(u_h, v_h) = F(v_h) \quad \text{对于所有 } v_h \in V_h. $$Lax-Milgram 在 $V_h$ 中适用(继承了 $V$ 的强制性),给出唯一的 $u_h$ 。Cea 引理 提供了误差估计:
$$ \|u - u_h\| \le \frac{M}{\alpha} \inf_{v_h \in V_h} \|u - v_h\|. $$逼近误差由 $V_h$ 中的最佳逼近误差控制,最多乘以常数 $M/\alpha$ (双线性形式的条件数)。这是有限元方法的理论基础。
从 Galerkin 到有限元#
实际上,有限维子空间 $V_h$ 通过将 $\Omega$ 分割成小元素(二维三角形,三维四面体)并在每个元素上定义分段多项式函数来构造。对于网格尺寸为 $h$ 的分段线性元素,最佳逼近误差满足 $\inf_{v_h \in V_h}\|u - v_h\|_{H^1} \le Ch\|u\|_{H^2}$ (对于 $u \in H^2$ )。Cea 引理然后给出
$$ \|u - u_h\|_{H^1} \le \frac{M}{\alpha}Ch\|u\|_{H^2}, $$显示出一阶收敛率。高阶元素(分段二次、三次等)给出更快的收敛率:$\|u - u_h\|_{H^1} \le Ch^k\|u\|_{H^{k+1}}$ 对于 $k$ 次多项式,前提是 $u$ 足够规则。
Lax-Milgram 框架使收敛分析变得清晰:整个理论简化为 (1) $V_h$ 的逼近性质和 (2) 双线性形式的条件数 $M/\alpha$ 。这两个因素完全独立。实用的 FEM 软件积极利用这种分离:在 $u$ 粗糙的地方细化网格(更好的逼近)并使用预处理器减少有效条件数(较小的 $M/\alpha$ )。
非线性问题:Browder-Minty 定理#
Lax-Milgram 定理处理线性问题。对于非线性椭圆偏微分方程,适当的推广是 Browder-Minty 定理指出,如果 $A: V \to V^*$ 是反射 Banach 空间 $V$ 上的单调、强制、半连续算子,则 $A$ 是满射 —— 对于每个 $f \in V^*$ ,方程 $Au = f$ 有解。
单调性($\langle Au - Av, u - v \rangle \ge 0$ 对于所有 $u, v$ )取代线性加上强制性。半连续性(映射 $t \mapsto \langle A(u + tv), w \rangle$ 是连续的)取代完全连续性。这个框架涵盖了 $p$ -Laplacian $-\text{div}(|\nabla u|^{p-2}\nabla u) = f$ ,能量 $J(u) = \frac{1}{p}\int |\nabla u|^p - \int fu$ 的 Euler-Lagrange 方程,这是一个真正非线性的问题,需要超越 Hilbert 空间进入 $W_0^{1,p}(\Omega)$ 。
量子力学:状态、可观测量、谱#
数学框架#
在物理上量子力学是从 Heisenberg 矩阵力学(1925)和 Schrödinger 波动力学(1926)两条独立路线起步的,最初看起来完全不同——一条用矩阵代数,一条用偏微分方程。von Neumann 在 1932 年的工作把这两条路线统一在 Hilbert 空间的语言下:状态是 Hilbert 空间向量、可观测量是自共轭算子、测量结果是谱、动力学是幺正群。这套统一不是后见之明的整理,而是一种把所有量子机制压缩成三页字典的数学发明。
下面这张字典是这套统一的全部内容。它的紧凑令人尴尬——三页就能涵盖整个量子机制——但每一行背后都需要前几篇的几个定理支撑。状态的归一化要求 $\|\psi\| = 1$ ,这是 Hilbert 空间内积的事;可观测量的实测量结果要求自共轭,这是第八/九篇的谱定理;测量概率分布要求投影值测度,这是同样的谱定理;时间演化的连续性和概率守恒要求强连续幺正群,这是 Stone 定理。每一句物理陈述背后都是一个泛函分析定理。
在 von Neumann(1932 年)的 Hilbert 空间量子力学表述中:
- 状态 是可分 Hilbert 空间 $H$ 中的单位向量 $\psi$ (更准确地说,射线 $\{\lambda\psi : |\lambda| = 1\}$ )。
- 可观测量 是自伴算子 $A: \mathcal{D}(A) \to H$ 。
- 测量结果 是谱 $\sigma(A) \subset \mathbb{R}$ 中的元素。
- 期望值 在状态 $\psi$ 中的可观测量 $A$ :$\langle A \rangle_\psi = \langle A\psi, \psi \rangle$ (当 $\psi \in \mathcal{D}(A)$ 时)。
- 测量 $A$ 在 Borel 集 $B \subset \mathbb{R}$ 中的概率:$\text{Prob}(A \in B) = \|E(B)\psi\|^2$ ,其中 $E$ 是谱定理中的投影值测度。

为什么是自伴的?谱定理保证了实谱(测量结果是实数),谱分解(测量概率是良好定义的),以及泛函演算(可观测量的函数有意义)。仅仅对称算子缺乏这些性质 —— 回想第 9 章,对称算子可以有 $\sigma = \mathbb{C}$ ,在这种情况下“可观测量的值”概念是未定义的。
量子力学的整个正式装置 —— 波函数、期望值、跃迁概率、微扰理论 —— 都编码在这个六行字典中。其余部分是计算。
例子:氢原子#
氢原子是量子力学最经典的例子,也是把整套数学机器(Sobolev 空间、Kato-Rellich、谱定理、Stone 定理)拼起来的标杆。物理上它是一个电子在质子库仑场中运动的系统,数学上它是 $L^2(\mathbb{R}^3)$ 上的算子 $\hat{H} = -\frac{\hbar^2}{2m}\Delta - \frac{e^2}{|x|}$ 的谱分析。每一步都需要前几篇的某个具体定理:动能 $-\Delta$ 的自共轭性需要第十一篇的 Sobolev 空间,势能 $-e^2/|x|$ 的自共轭性需要第九篇的 Kato-Rellich 微扰定理,谱分析需要第八篇的谱定理,时间演化需要第十篇的 Stone 定理。
最有戏剧性的是 Bohr 能级 $E_n = -13.6\,\text{eV}/n^2$ 的出现。物理上 Bohr 在 1913 年用半经典量子化条件凑出来这个公式,预测了氢原子光谱的所有可见线(Balmer 系列)。但 Bohr 的论证缺乏数学基础——为什么能级离散?为什么是 $1/n^2$ ?为什么有 $n^2$ 重简并?Schrödinger 在 1926 年用波动方程给出了完整答案,但严格的数学基础要等到 von Neumann 1932 年的谱理论才完整。今天看,Bohr 能级是自共轭算子 $\hat{H}$ 的离散谱、$1/n^2$ 衰减来自库仑势的具体形式、$n^2$ 简并来自 $\hat{H}$ 的 $SO(4)$ 对称性(Runge-Lenz 向量)——每件事都被泛函分析定理精确解释。
Hilbert 空间是 $H = L^2(\mathbb{R}^3)$ 。Hamiltonian(能量可观测量)是
$$ \hat{H} = -\frac{\hbar^2}{2m}\Delta - \frac{e^2}{|x|}, $$一个带 Coulomb 势的 Schrodinger 算子。这是一个定义在 $\mathcal{D}(\hat{H}) = H^2(\mathbb{R}^3)$ 上的无界自伴算子(Kato-Rellich 定理通过将 $-e^2/|x|$ 视为 Laplacian 的相对有界扰动来建立自伴性;Coulomb 奇异点在原点处相对于 Laplacian 在 $n = 3$ 时在 $H^1$ 中是“小”的)。
谱定理给出:
- 离散谱(束缚态):本征值 $E_n = -13.6\,\text{eV}/n^2$ 对于 $n = 1, 2, 3, \ldots$ ,具有维度为 $n^2$ 的有限维本征空间(熟悉的量子数简并)。
- 连续谱(散射态):区间 $[0, \infty)$ ,对应于未束缚电子。
谱分解 $\hat{H} = \int \lambda \, dE(\lambda)$ 编码了关于能量的所有可测量预测:测量能量在区间 $[a, b]$ 内的概率是 $\|E([a, b])\psi\|^2$ ,期望值是 $\langle \hat{H}\psi, \psi \rangle = \int \lambda \, d\|E(\lambda)\psi\|^2$ 。
束缚态和散射态#
谱的结构编码了物理。束缚态 —— 一个被质子捕获的电子 —— 对应于本征函数 $\psi_n$ 使得 $\hat{H}\psi_n = E_n\psi_n$ 且 $E_n < 0$ 。波函数 $\psi_n$ 在无穷远处指数衰减;电子是真正局域化的。散射态对应于连续谱中某 $E \ge 0$ 的广义本征函数;波函数不衰减(不在 $L^2$ 中),但由这些广义本征函数构建的适当波包在 $L^2$ 中并向无穷远处传播。
对于氢原子,束缚态能量是明确的:$E_n = -m_e e^4/(2\hbar^2 n^2) = -13.6\,\text{eV}/n^2$ 在 CGS 单位下。基态 $n=1$ 的能量为 $-13.6\,\text{eV}$ ,空间波函数为 $\psi_{100}(r) = \pi^{-1/2}a_0^{-3/2}e^{-r/a_0}$ ,其中 $a_0 = \hbar^2/(m_e e^2) \approx 0.529$ Angstrom 是 Bohr 半径。简短检查 $\psi_{100} \in H^2(\mathbb{R}^3)$ :函数及其前两个导数都指数衰减,因此所有 $L^2$ 范数都是有限的 —— 一种远离 $r = 0$ 的高斯型积分,在原点唯一的担忧是方程中的 Coulomb 奇异性,这通过 Kato-Rellich 相对界吸收到了动能项中。
$n = 2$ 层的能量为 $-3.4\,\text{eV}$ ,有四个态(一个 $2s$ 和三个 $2p$ )。它们的能量一致是因为 Coulomb 问题的“偶然” $SO(4)$ 对称性(Runge-Lenz 向量与 $\hat{H}$ 对易)。能级 $n$ 上的简并 $n^2$ 是这种对称性的结果,而不是 $SO(3)$ 单独的结果 —— 对于非 Coulomb 径向势,$s$ 、$p$ 、$d$ 态会分裂。这种对称性-谱分析正是谱定理和 Stone 定理使之严格的;物理学家的形式操作在指定了算子域后成为定理。

谱正负二分法是普遍的:任何具有约束势(势在无穷远处趋于无穷)的非相对论量子系统只有纯点谱且没有散射,而任何具有势垒或渐近常数势的系统都有连续谱和良好的散射理论。数学机制 —— Putnam-Kato 定理、Mourre 交换子方法、Weyl 本质谱定理 —— 建立在第 8 章和第 9 章的谱框架之上。
不确定性原理#
对于两个自伴算子 $A, B$ 且 $\psi \in \mathcal{D}(AB) \cap \mathcal{D}(BA)$ ,Robertson 不确定关系指出
$$ \Delta_\psi A \cdot \Delta_\psi B \ge \frac{1}{2}|\langle [A, B]\psi, \psi \rangle|, $$其中 $\Delta_\psi A = \sqrt{\langle (A - \langle A \rangle_\psi)^2\psi, \psi \rangle}$ 是标准差。
对于位置 $Q$ 和动量 $P = -i\hbar d/dx$ ,$[Q, P] = i\hbar I$ ,给出 Heisenberg 不确定性原理 $\Delta Q \cdot \Delta P \ge \hbar/2$ 。证明使用 $H$ 中的 Cauchy-Schwarz 不等式:
$$ |\langle [A,B]\psi, \psi \rangle| = 2|\text{Im}\,\langle A'\psi, B'\psi \rangle| \le 2\|A'\psi\|\|B'\psi\| = 2\Delta A \cdot \Delta B, $$其中 $A' = A - \langle A \rangle I$ 和 $B' = B - \langle B \rangle I$ 。

不确定性原理有时被呈现为深刻的物理原理。从泛函分析的角度来看,它只是应用于交换子的 Cauchy-Schwarz 不等式 —— 深度在于认识到可观测量是不交换的自伴算子,而不在于不等式本身。非交换性是物理;不等式是记账。
量子对称性和守恒律#
对称性由 Hilbert 空间上的幺正(或反幺正)算子 $U$ 表示。Wigner 定理指出,任何在纯态集合上保持跃迁概率 $|\langle \psi, \phi \rangle|^2$ 的双射都由这样的算子实现。
连续对称性 —— 一族 $U(t) = e^{itA}$ —— 由自伴算子 $A$ 生成(由下面的 Stone 定理)。相关的 守恒律 说明 $A$ 由动力学守恒:如果 $[\hat{H}, A] = 0$ ,则 $\langle A \rangle_{\psi(t)}$ 是常数。这是 Noether 定理的量子类比:
- 时间平移对称性 $\leftrightarrow$ 能量守恒。
- 空间平移对称性 $\leftrightarrow$ 动量守恒。
- 旋转对称性 $\leftrightarrow$ 角动量守恒。
这些都是 Stone 定理和谱定理的严格结果。
Stone 定理和 Schrodinger 动力学#
陈述#
Stone 定理是这一节的真正高潮,也是整个泛函分析系列的一个收束。它把“自共轭算子”和“强连续幺正群”一一对应起来——给一个自共轭 Hamilton 算子 $H$ ,立刻得到一个 Schrödinger 演化群 $U(t) = e^{-itH/\hbar}$ ;反过来,给一个强连续幺正群 $U(t)$ ,立刻能反推出一个自共轭生成元 $H$ 。这两件事的等价让“量子动力学”这件物理操作和“自共轭算子”这件数学对象完全互译。
这条等价的物理后果是:任何具有合理动力学的量子系统都由一个自共轭 Hamilton 算子刻画,反过来任何自共轭算子都生成合理的动力学。所以“可观测量是自共轭算子”这条 von Neumann 原则不是公理而是定理——它是“能量守恒+概率守恒+时间连续性”这三条物理需求的算子理论翻译。Noether 定理也在这套框架下变得清晰:每个连续对称性 $U(t) = e^{itA}$ 都对应一个守恒量 $A$ (自共轭),守恒律不再是变分法的副产品,而是 Stone 定理的直接推论。

设 $A$ 是 Hilbert 空间 $H$ 上的(可能是无界的)自伴算子。Stone 在 1932 年证明了以下结论:
$$ U(t) = e^{itA}, \quad t \in \mathbb{R}, $$通过谱定理定义为 $U(t) = \int e^{it\lambda} \, dE(\lambda)$ ,是 强连续的一参数幺正群满足以下条件:$U(0) = I$ ,$U(t+s) = U(t)U(s)$ ,$U(t)^* = U(-t)$ ,且 $t \mapsto U(t)\psi$ 对每个 $\psi$ 是连续的。
反之,$H$ 上的每个强连续的一参数幺正群 $\{U(t)\}_{t \in \mathbb{R}}$ 形如 $U(t) = e^{itA}$ 对于唯一的自伴算子 $A$ 。

证明概述#
给定自伴 $A$ 且谱测度为 $E$ ,定义 $U(t) = \int e^{it\lambda} \, dE(\lambda)$ 。每个 $U(t)$ 是良定义的,因为 $|e^{it\lambda}| = 1$ 。
- 幺正性: $U(t)^*U(t) = \int |e^{it\lambda}|^2\,dE = I$ 。
- 群: $U(t)U(s) = U(t+s)$ 从 $e^{it\lambda}e^{is\lambda} = e^{i(t+s)\lambda}$ 得出。
- 强连续性: $\|U(t)\psi - \psi\|^2 = \int |e^{it\lambda}-1|^2\,d\|E(\lambda)\psi\|^2 \to 0$ 由控制收敛定理。
- 生成子: $(U(t)\psi-\psi)/t \to iA\psi$ 对于 $\psi \in \mathcal{D}(A)$ 。
Schrödinger 方程的解就这样落地。 设 $\psi_0 \in H$ 是初始态,定义 $\psi(t) = U(t) \psi_0$ ,那么 $\psi(t) \in \mathcal{D}(A)$ 对一切 $t$ 成立(因为幺正群保持定义域),并且满足
$$ i\hbar \frac{d\psi}{dt} = H \psi(t), \qquad \psi(0) = \psi_0, $$其中 $H = \hbar A$ 是 Hamilton 算子。$U(t) = e^{-itH/\hbar}$ 这个写法不再是形式记号——通过谱测度 $E$ 它有精确的数学含义:$U(t) = \int e^{-it\lambda/\hbar} \, dE(\lambda)$ 。能量本征态 $\psi_n$ (满足 $H \psi_n = E_n \psi_n$ )按 $\psi_n(t) = e^{-iE_n t/\hbar} \psi_n$ 演化,相位以频率 $E_n/\hbar$ 旋转——这就是著名的 Bohr 频率条件,从纯数学的谱论里自然冒出。
下面这张图把整套机器的物理图像凑齐:左边是 Hamilton 算子的谱(束缚态对应离散点,散射态对应连续区间),右边是初始态 $\psi_0$ 的谱分解 $\psi_0 = \int dE(\lambda) \psi_0$ ,时间演化让每个谱分量按 $e^{-i\lambda t/\hbar}$ 独立旋转,整体合成的就是 $\psi(t)$ 。整个量子动力学被 Stone 定理压缩成“在谱测度下做相位旋转”这一句话。

Schrödinger 方程#
把 Stone 定理直接对到物理上:量子态 $\psi$ 的时间演化遵循 Schrödinger 方程
$$ i\hbar \frac{d\psi}{dt} = \hat{H}\psi, \quad \psi(0) = \psi_0. $$取 $A = \hat{H}/\hbar$ ,Stone 定理立刻给出解 $\psi(t) = e^{-it\hat{H}/\hbar}\psi_0$ 。这条公式承诺了四件事:
- 存在唯一性。 对任意初始态 $\psi_0 \in H$ 都有解,即使 $\hat{H}$ 是无界算子也成立——这正是 Stone 定理用谱测度绕开无界性的关键。
- 幺正性。 $\|U(t)\psi_0\| = \|\psi_0\|$ ,概率守恒。一个粒子永远是一个粒子,演化中不丢概率。
- 可逆性。 $U(-t) = U(t)^{-1}$ ,时间反演对称。这是量子动力学和经典耗散动力学的根本差别。
- 能量守恒。 若 $\psi_0$ 是 $\hat{H}$ 的本征态、本征值为 $E$ ,则 $\psi(t) = e^{-iEt/\hbar}\psi_0$ ——只有相位旋转,能量不变。
让人吃惊的是,要从泛函分析跨到量子力学需要补充进去的东西居然这么少。“可观测量是自共轭算子、对称性是幺正算子、时间演化是 Hamilton 算子生成的幺正群"这一整套框架,在接受了线性 Hilbert 空间结构之后基本是被谱定理和 Stone 定理强制规定的。真正属于物理的部分只有 $\hat{H}$ 的选择,那一步完全不涉及泛函分析。
时间演化的算例#
拿谐振子 $\hat{H} = -\tfrac{1}{2m}\partial_x^2 + \tfrac{1}{2}m\omega^2 x^2$ 在 $L^2(\mathbb{R})$ 上演示。它的谱是纯离散的:$E_n = \hbar\omega(n + 1/2)$ ,本征函数 $\psi_n$ 正比于 Hermite 函数。给定初态 $\psi_0 = \sum c_n \psi_n$ ,演化后的态是
$$ \psi(t) = \sum c_n e^{-iE_n t/\hbar} \psi_n. $$每个分量按自身频率旋转相位,模长 $|c_n|^2$ 全部不变——能量基下的测量分布与时间无关。但位置和动量的期望值会以频率 $\omega$ 振荡,这正是经典轨道的量子对应。所有这些都是严格的:因为 $\sum |c_n|^2 < \infty$ ,级数在 $L^2$ 中收敛,逐项乘相位正是 $e^{-it\hat{H}/\hbar}$ 在谱定理下的定义。
对于像库仑势这种带连续谱的势能,构造完全一样,只是谱积分要拆成"束缚态求和 + 散射态 Lebesgue 积分"两块。幺正群在每一块上都只是乘相位。不需要找闭式传播子,谱定理本身就是传播子。
数值验证:自由波包#
考虑自由 Hamilton 算子 $\hat{H} = -\tfrac{1}{2}\partial_x^2$ 在 $L^2(\mathbb{R})$ 上,取初值 $\psi_0(x) = (2/\pi)^{1/4} e^{-x^2}$ ,归一化使 $\|\psi_0\|^2 = 1$ 。Stone 定理保证 $U(t) = e^{-it\hat{H}}$ 是幺正的,因此 $\|\psi(t)\| = 1$ 对所有 $t$ 成立。
显式自由传播子给出
$$ \psi(t, x) = \frac{1}{\sqrt{1 + 2it}}(2/\pi)^{1/4}\exp\left(-\frac{x^2}{1 + 2it}\right). $$取 $t = 1$ 。前因子模长 $|1 + 2i|^{-1/2} = 5^{-1/4}$ 。指数实部 $\operatorname{Re}\left(\frac{1}{1 + 2i}\right) = 1/5$ 。算模平方积分:
$$ \|\psi(1)\|^2 = \frac{\sqrt{2/\pi}}{\sqrt{5}} \int_{-\infty}^{\infty} e^{-2x^2/5}\,dx = \frac{\sqrt{2/\pi}}{\sqrt{5}} \cdot \sqrt{\frac{5\pi}{2}} = 1. $$概率精确守恒,一点没漏。
把 $\hat{H}$ 换成非自共轭算子 $-\tfrac{1}{2}\partial_x^2 + ix$ 试一遍:生成元失去自共轭性,Stone 定理立刻失效,同样的计算给出 $\|\psi(t)\|^2 = e^{t^3/3}$ ——概率指数爆炸。幺正性不是免费的,是用自共轭性买来的。 这条对照把"为什么量子力学执着于自共轭"讲得比任何文字说明都清楚。
数值算例:Lax-Milgram 给出 $-\Delta u = 1$ 在 $(0, 1)$ 上的弱解#
把抽象的 Lax-Milgram 翻成具体数。考虑 $-u''(x) = 1$ 在 $(0, 1)$ 上配 Dirichlet 边界 $u(0) = u(1) = 0$ 。经典解 $u(x) = x(1 - x)/2$ 。
变分形式: 双线性 $a(u, v) = \int_0^1 u' v'\,dx$ 在 $H^1_0(0, 1)$ 上。线性 $L(v) = \int_0^1 v\,dx$ 。寻找 $u \in H^1_0$ 使 $a(u, v) = L(v)$ 对所有 $v \in H^1_0$ 。
强制性常数: $a(u, u) = \int_0^1 (u')^2 = \|u'\|_{L^2}^2 \geq C \|u\|_{H^1}^2$ 由 Poincare 不等式($\|u\|_{L^2}^2 \leq (1/\pi^2) \|u'\|_{L^2}^2$ 对 $u \in H^1_0(0, 1)$ )。具体 $C = 1/(1 + 1/\pi^2) = \pi^2/(\pi^2 + 1) \approx 0.908$ 。
连续性: $|a(u, v)| \leq \|u'\|_2 \|v'\|_2 \leq \|u\|_{H^1} \|v\|_{H^1}$ ,常数 $M = 1$ 。
Lax-Milgram 给: 唯一弱解存在,且 $\|u\|_{H^1} \leq M/C \cdot \|L\|_{H^{-1}} \approx 1.10 \cdot \|1\|_{H^{-1}}$ 。具体地 $\|1\|_{H^{-1}} = \sup_{\|v\|_{H^1} = 1} \int_0^1 v$ 。计算:取 $v(x) = c x (1-x)$ 归一化 $\|v\|_{H^1} = 1$ 给出 $\int v = c/6$ ,$\|v\|_{H^1}^2 = c^2 (\int v'^2 + \int v^2) = c^2 (1/3 + 1/30) = c^2 \cdot 11/30$ ,所以 $c = \sqrt{30/11}$ ,$\int v = \sqrt{30/11}/6 \approx 0.275$ 。所以 Lax-Milgram 给出 $\|u\|_{H^1} \leq 1.10 \cdot 0.275 \approx 0.30$ 。
真解的 $H^1$ 范数: $u(x) = x(1-x)/2$ ,$u'(x) = 1/2 - x$ 。$\|u'\|_2^2 = \int_0^1 (1/2 - x)^2 dx = 1/12$ 。$\|u\|_2^2 = \int_0^1 (x(1-x)/2)^2 dx = 1/120$ 。$\|u\|_{H^1} = \sqrt{1/12 + 1/120} = \sqrt{11/120} \approx 0.302$ 。
对照: 抽象界 $0.30$ 和真值 $0.302$ 几乎重合——Lax-Milgram 不是一个粗糙的存在性结果,而是一个精确的能量估计。Galerkin 方法把同样的不等式用到有限维子空间,给出有限元收敛理论。
正则性理论:简要概述#
Lax-Milgram 给的是 $-\Delta u = f$ 的弱解 $u \in H_0^1(\Omega)$ 。但 $u$ 真的光滑吗?它满足经典意义下的方程吗?
椭圆正则性 回答:如果数据和边界光滑,那么解也光滑。
定理(内部正则性)。 若 $u \in H^1(\Omega)$ 是 $-\Delta u = f$ 的弱解、$f \in H^k(\Omega)$ ,则 $u \in H^{k+2}_{\text{loc}}(\Omega)$ 。
定理(边界正则性)。 若 $\Omega$ 的边界是 $C^{k+2}$ 的、$f \in H^k(\Omega)$ 、$u \in H_0^1(\Omega)$ 是弱解,则 $u \in H^{k+2}(\Omega)$ ,且 $\|u\|_{H^{k+2}} \le C \|f\|_{H^k}$ 。
推论(自举到经典解)。 若 $f \in C^\infty(\overline{\Omega})$ 且 $\partial\Omega$ 光滑,则弱解是 $C^\infty(\overline{\Omega})$ ——一个经典解。Sobolev 嵌入定理把 $H^k$ 正则性翻译成 $C^m$ 正则性,只要 $k$ 足够大。
策略:
- 差商法。 内部正则性时取 $v = \tau_h^{-s}(\tau_h^s u)$ ($\tau_h^s$ 是方向 $s$ 上的差商)作为弱形式的检验函数。强制性给出 $H^2$ 正则性,然后迭代。
- 拉直边界。 在 $\partial\Omega$ 附近用微分同胚把边界拉成超平面,然后在切向上套用内部论证。法向需要额外用方程本身做一步推。
弱存在性(泛函分析)和经典正则性(估计)的这种互相搭台,是现代 PDE 理论的核心。
Schauder 估计和 Hölder 正则性#
对于带 Hölder 连续系数($a_{ij} \in C^{0,\alpha}$ )的方程,合适的正则性理论是 Schauder 估计,而不是 Sobolev 估计。结论:若 $f \in C^{0,\alpha}(\overline{\Omega})$ 、系数 $C^{0,\alpha}$ ,则解 $u \in C^{2,\alpha}(\overline{\Omega})$ ,并且 $\|u\|_{C^{2,\alpha}} \le C \|f\|_{C^{0,\alpha}}$ 。
Schauder 估计用"冻结系数"技术(把变系数算子近似成常系数)加上显式 Newton 位势。关键的分析工具是 Hölder 空间的 Campanato 刻画。
极值原理#
另一条互补的路是 极值原理:若 $-\Delta u \ge 0$ 在 $\Omega$ 内(即 $u$ 次调和),则 $u$ 在 $\partial\Omega$ 上取得最大值。强极值原理(Hopf)更尖锐:除非 $u$ 是常数,否则最大值 只能 在边界上取得。
极值原理给出能量方法拿不到的定性信息(正性、比较)。和 Lax-Milgram 加椭圆正则性合起来,能给椭圆 PDE 一幅相当完整的画面。
例:若 $f \ge 0$ ,则 $-\Delta u = f$ 配零 Dirichlet 数据的弱解非负。证明:用 $v = u_- = \max(-u, 0)$ 做检验函数,观察 $\int |\nabla u_-|^2 = -\int f u_- \le 0$ ,结论 $u_- \equiv 0$ 。Green 函数的正性是这条论证的下游;自由边界问题和障碍问题的比较原理也是。
完整流水线#
椭圆边值问题的泛函分析路径有一条清晰的流水线:
- 弱公式化。 把 PDE 写成变分形式 $a(u, v) = F(v)$ 对所有 $v$ 在 Sobolev 空间 $V$ 中成立。
- 存在唯一性。 套 Lax-Milgram(或非线性情形下的 Browder-Minty)。
- 正则性。 把 $u$ 从 $V$ (如 $H^1$ )提升到 $H^{k+2}$ 、$C^{k,\alpha}$ 或 $C^\infty$ ,提升幅度由数据和边界的光滑度决定。
- 定性性质。 极值原理、比较定理、谱理论。
- 逼近。 Galerkin/有限元用于数值计算,Céa 引理给出误差界。
每一步用不同的工具,但整个框架是统一且模块化的。这正是泛函分析路径长久的贡献:把存在性、正则性、计算这三件事分开,让每个问题用最优技术回答。
数值算例:$f \in L^2$ 买两次弱导数#
在 $(0, 1)$ 上解 $-u'' = f$ ,配 $u(0) = u(1) = 0$ 、$f(x) = x^{-1/4}$ 。注意 $f \in L^2(0, 1)$ 因为 $\int_0^1 x^{-1/2}\,dx = 2 < \infty$ ,但 $f \notin C^0$ 。Lax-Milgram 给 $u \in H_0^1$ ,椭圆正则性预言 $u \in H^2$ 。
积两次:$u'(x) = -\tfrac{4}{3} x^{3/4} + C$ ,$u(x) = -\tfrac{16}{21} x^{7/4} + Cx + D$ 。边界条件强迫 $D = 0$ 、$C = 16/21$ 。所以 $u(x) = \tfrac{16}{21}(x - x^{7/4})$ 。算二阶导:$u''(x) = -x^{-1/4}$ 。它的 $L^2$ 范数平方恰好是 $2$ ,所以 $u \in H^2(0, 1)$ 。但是 $\lim_{x \to 0^+} u''(x) = -\infty$ ,所以 $u \notin C^2([0, 1])$ 。Sobolev 嵌入 $H^2(0, 1) \hookrightarrow C^1([0, 1])$ 成立(确实 $u'(0) = 0$ ),但嵌入到 $C^2$ 失败。正则性定理给出的正是数据所付得起的精确价位:$f \in L^2$ 买两次弱导数,买不到两次经典导数。数字和理论严丝合缝。
反例:变分方法在不强制的双线性形式上失败#
Lax-Milgram 要求双线性形式 $a$ 强制(coercive,$a(u, u) \geq C \|u\|^2$ )。失去这条件,存在性就丢。
具体反例:在 $H^1_0(0, 1)$ 上考虑 $a(u, v) = \int_0^1 u' v' - \pi^2 u v\,dx$ (对应方程 $-u'' - \pi^2 u = f$ )。$\sin(\pi x)$ 是基态本征函数,$a(\sin(\pi x), \sin(\pi x)) = \pi^2 \cdot 1/2 - \pi^2 \cdot 1/2 = 0$ ——双线性形式在这一方向完全退化,不强制。
后果:方程 $-u'' - \pi^2 u = f$ 不一定有解。具体 $f(x) = \sin(\pi x)$ 时,对方程两边乘 $\sin(\pi x)$ 积分:左边 $= \int_0^1 (-u'' - \pi^2 u) \sin(\pi x)\,dx = \int u (\pi^2 \sin(\pi x) - \pi^2 \sin(\pi x))\,dx = 0$ (用分部积分),右边 $= 1/2$ 。$0 = 1/2$ 矛盾——解不存在。这是 Fredholm 选择定理的经典反例:当算子 $-d^2/dx^2 - \pi^2$ 的核非零($\sin(\pi x)$ )时,方程的可解性需要 $f \perp \ker$ 。
教训:Lax-Milgram 是个精致的工具,要求强制性。失去强制性后要换 Fredholm 选择定理,给出更复杂的可解性条件(数据要正交于核空间)。本系列第七篇展开的紧算子谱论就是为了精确地分析这种"Fredholm 选择"情形。
反例:直接方法在能量泛函非凸时失败#
变分极小化的直接方法依赖弱下半连续性,等价于(在 Hilbert 设定下)凸性。失去凸性,直接方法不再能给出极小值点。
经典反例:在 $H^1(B_1; \mathbb{R}^n)$ (向量值 Sobolev 空间)上极小化 $E(u) = \int_{B_1} (|\nabla u|^2 - 1)^2\,dx$ 。这是 Aviles-Giga 泛函,模拟"Eikonal 限制”$|\nabla u| = 1$ 。$E$ 不凸(对 $|\nabla u|^2 = 1$ 的所有 $u$ 同样是 $0$ ,但混合 $u_1, u_2$ 一般不在这条等位面上)。
直接方法的失败:取最小化序列 $u_n$ 使 $E(u_n) \to 0$ 。由 Banach-Alaoglu 抽弱收敛子列 $u_n \rightharpoonup u^*$ 。但 $E$ 不弱下半连续,所以 $E(u^*)$ 可以严格大于 $\liminf E(u_n) = 0$ ——弱极限不是极小值点。具体的 $u_n$ 可以构造成在小尺度振荡(“微结构”)让能量降到 $0$ ,但弱极限是平均化版本,能量为正。
教训:直接方法只对凸(或弱下半连续)泛函有保证。非凸情形需要更精细的工具——松弛、Young 测度、$\Gamma$ -收敛——这些都是 20 世纪后期发展的,超出本系列范围但与第五篇的弱拓扑、第十一篇的 Sobolev 空间紧密相关。
为什么我在意#
研一那年我盯着一个奇异的刚度矩阵看了三天。我在写一个有限元求解器,处理正方形区域上的稳态热方程,配纯 Neumann 边界条件。网格很细,组装例程检查过没问题,但线性求解器返回 NaN。条件数是 $10^{16}$ 。我先怪积分公式,再怪网格朝向,再怪浮点累积误差。
一个博后路过,瞥了一眼边界条件标签,说:“你在 $H^1$ 上反 Laplacian。要么把常数商掉,要么钉死一个节点。” 我加了一行 $u(x_0) = 0$ 把某个角顶点固定。条件数掉到 $412$ 。求解器 14 步收敛。
那一刻 Lax-Milgram 从黑板上的定理变成了诊断工具。强制性常数 $\alpha$ 不是抽象的下界,而是你刚度矩阵的最小特征值。如果 $\alpha = 0$ ,你的矩阵就是奇异的。泛函分析告诉你恰好是哪个自由度在飘、要怎么把它定住。从那以后我再也没在写 PDE 求解器之前不先检查离散形式的强制性。抽象救我免于和鬼影 debug。
常见陷阱#
初学者经常把量子力学里的对称算子和自共轭算子混为一谈。错误的信念是:如果 $\langle A\phi, \psi \rangle = \langle \phi, A\psi \rangle$ 对所有检验函数成立,那么 $A$ 就是自共轭的、可以套谱定理。这是错的。对称性只要求该等式在某个稠密定义域上成立;自共轭性要求伴随算子的定义域恰好等于 $A$ 自己的定义域。
拿动量算子 $P = -i\,d/dx$ 在 $L^2[0, 1]$ 上做反例。定义域取 $\mathcal{D}(P) = C_c^\infty(0, 1)$ ,即在端点附近为零的光滑函数。分部积分给 $\langle P\phi, \psi \rangle - \langle \phi, P\psi \rangle = -i [\bar{\phi}\psi]_0^1 = 0$ 。所以 $P$ 是对称的。
现在算伴随定义域 $\mathcal{D}(P^*)$ 。它由所有满足"$\phi \mapsto \langle P\phi, \psi \rangle$ 有界"的 $\psi \in L^2$ 组成。分布理论显示 $\mathcal{D}(P^*) = H^1[0, 1]$ ,没有边界条件。取 $\phi(x) = e^{2\pi i x} \in \mathcal{D}(P^*)$ 、$\psi(x) = 1 \in \mathcal{D}(P^*)$ 。边界项 $-i[\bar{\phi}\psi]_0^1 = -i(1 - 1) = 0$ 这里恰好抵消,但换 $\psi(x) = x$ ,边界项就是 $-i[\bar{\phi}x]_0^1 = -i \ne 0$ 。伴随严格更大:$\mathcal{D}(P) \subsetneq \mathcal{D}(P^*)$ 。$P$ 不是自共轭的。它的亏指数 $(1, 1)$ ,接受一族单参数的自共轭扩张 $e^{i\theta}\psi(0) = \psi(1)$ 。不指定 $\theta$ ,就没有唯一的幺正群 $e^{itP}$ ,概率会从边界漏出,谱定理也用不上。对称性是便宜的,自共轭性要花边界条件来买。
后续方向#
这个系列写了十二篇,已经覆盖了一门研究生泛函分析课的核心内容。但泛函分析是一门巨大的学科。下面列一些进一步学习的方向。
算子代数和 $C^*$ -代数。 $B(H)$ 这个代数本身有丰富的结构,被 $C^*$ -代数和 von Neumann 代数理论系统研究。Gelfand-Naimark 定理把抽象 $C^*$ -代数刻画成 $B(H)$ 的子代数。这条路对 QFT 和统计力学是基础。
非线性泛函分析。 Schauder 不动点定理、度理论、非线性泛函的变分法把线性理论推广到非线性情形。Navier-Stokes、Yang-Mills、Einstein 场方程都要用非线性方法。
微局部分析。 拟微分算子和 Fourier 积分算子精化分布理论,研究变系数 PDE 解的正则性。波前集同时编码奇异点的位置空间和频率空间信息。
插值理论。 Riesz-Thorin 和 Marcinkiewicz 插值提供从端点估计内插出 $L^p$ 界的工具。和调和分析、奇异积分算子相通。
谱几何。 “鼓的形状能听出来吗?"(Kac, 1966)问的是 Dirichlet Laplacian 的谱里编码了多少 $\Omega$ 的几何信息。Weyl 律 $N(\lambda) \sim C_n\,\text{vol}(\Omega) \lambda^{n/2}$ 给出主导项。这一支把泛函分析和微分几何、数论连起来。
量子信息论。 迹类算子构成密度矩阵(混合量子态)空间。von Neumann 熵、量子信道、纠缠度量——全用算子论工具研究。
随机矩阵论和自由概率。 大尺度自共轭随机矩阵的本征值统计有普适极限,由随机矩阵系综描述。Voiculescu 的自由概率把经典概率推广到非交换代数。两个学科本质上都是泛函分析。
指标理论。 Atiyah-Singer 指标定理把椭圆算子的解析指标(核的维数减余核的维数)和底流形的拓扑不变量挂钩。证明本质上用谱定理、半群方法、拟微分算子。Witten 的超对称量子力学证法把 QM 工具箱直接搬到几何拓扑里。
散射理论。 Lax-Phillips 理论和 Mourre 对易子方法描述 $e^{-it\hat{H}}\psi$ 在 $|t|$ 大时的渐近行为。波算子 $\Omega_\pm = \lim_{t \to \pm\infty} e^{it\hat{H}} e^{-it\hat{H}_0}$ 编码长时间散射,S 矩阵 $S = \Omega_+^* \Omega_-$ 是 $H_{ac}(\hat{H}_0)$ 上的幺正算子,它的谱就是实验测量的对象。整套机器靠谱定理、Stone 定理,以及对 $\hat{H}$ 绝对连续部分的精细分析。
把所有这些方向串起来的,是那条让泛函分析在一个多世纪前诞生的想法:通过抽象到合适的层级,我们能看到不同具体现象背后的结构性原因,而抽象的洞察又反过来指引我们找到从任何单一应用领域看不见的新结果。
这就是这门学科长久的力量,也是为什么一个十二篇的系列能舒服地塞进本科生第一次接触这门课的容量里、同时还感觉像冰山一角。冰山是真实的;我们覆盖的内容足够你读懂大部分现代 PDE 和数学物理文献,虽然还谈不上流利。流利需要时间和具体问题,两样都可以获得,只看读者愿不愿意提供。
最后说几句私人话。我至今在泛函分析上写了八万字,还是不太确定架构是不是真的对。每次重访一个题目——预解恒等式、谱定理、迹算子、Céa 引理——总能找到一个新角度、一个新连接、一种和其他部分更契合的表述。这种无穷的精化不是说这门学科没完成,而是说这门学科活着,抽象足够深以至能不停产出新结构,没有任何单一表述能穷尽它的内容。如果这个系列在你身上激起同样的精化循环,那它就完成了使命。
下次写下一个 PDE,问自己三个问题:自然的 Hilbert 空间是什么、双线性形式是什么、数据类是什么。能答上来,剩下的分析就在我们证过的定理下游,存在唯一性理论基本是练习题。答案可能不显然——给自由边界问题选对的 $V$ 真的难,Stokes 方程要的是无散度 Sobolev 空间而不是简单的 $H_0^1$ ——但是按那个顺序问问题这件事本身,就是泛函分析革命留给我们的纪律。用起来。
接下来的具体问题#
这个系列在第十二篇结束,但我们建起来的架构是地基不是天花板。自然的延续是从线性存在性理论走向非线性临界点理论和几何分析。沿着这条路接下来要问的是:
- 能量泛函非凸且没有全局极小值时,怎么找解?
- Sobolev 嵌入 $H^1 \hookrightarrow L^{2^*}$ 在临界指数上失去紧性时,谁来替补紧性?
- 单调但不强制的算子、或者只在弱拓扑下下半连续的泛函,怎么处理?
- 我们能不能从底空间的拓扑而不是从线性结构里挤出多解?
你已经具备处理这些问题的装备,因为整个线性工具箱都在手上:弱收敛和自反性(第五篇)、紧嵌入和 Rellich-Kondrachov(第十一篇)、线性化稳定性所需的谱分解(第九篇)、把 PDE 翻译成 Banach 空间微积分的变分框架。非线性分析不抛弃这些工具,反而是把它们武器化。变分法的直接方法升级成 Mountain Pass 定理。紧性失效变成集中紧性原理。谱隙变成 Morse 指标。
你会遇到的第一个具体结果是 Mountain Pass 定理(Ambrosetti-Rabinowitz, 1973)。它说:若 Banach 空间上的 $C^1$ 泛函 $J$ 满足 Palais-Smale 紧性条件、在 $0$ 处取局部极小、并在某点 $e$ 处取值低于 $J(0)$ ,则存在一个临界点位于鞍点能级 $c \ge \inf_{\gamma} \max_t J(\gamma(t))$ ,其中 $\gamma$ 跑遍所有连接 $0$ 到 $e$ 的路径。证明是一个 minimax 论证,完全建立在弱拓扑和形变引理之上。它解半线性椭圆方程 $-\Delta u = |u|^{p-2} u$ ,这里 Lax-Milgram 因为非线性破坏了凸性而完全失效。
从线性到非线性不是换题目,是换拓扑。你花十二篇学会了怎么控制极限、怎么衡量大小、怎么分解算子。这些技能不会过期,它们是阻止非线性问题溶化成形式操作的唯一屏障。挑一个具体方程,写下泛函,验紧性,跑 minimax。机器已经准备好。
总结#
写到这里,整个十二篇泛函分析系列也走到了头。回头看,这条线串起来的其实只有一个主题:怎样在无穷维中重新得到有限维的几何。每一篇都在回答这个问题的一个侧面。
第一篇用度量定义距离与完备性,把 $\mathbb{R}^n$ 的极限和柯西收敛搬到抽象空间。第二、三篇加上线性结构和内积,得到 Banach 与 Hilbert 空间——后者尤其重要,正交分解、Riesz 表示、Bessel 不等式让“几何”几乎原样保留。第四篇的对偶与 Hahn-Banach 给我“足够多的泛函”,第五篇的弱拓扑用这些泛函换来无穷维空间里稀缺的紧性。第六篇的三大定理把完备性翻译成开映射、闭图、一致有界三条工程级工具。
第七到第九篇是谱论的三层。紧算子让谱分解几乎和有限维一样干净,只是特征值要趋于零;一般有界自共轭算子把谱列表升级成谱测度,离散+连续混合的情形终于有了统一语言;无界算子放弃连续性留下闭性,让微分算子和量子可观测量进入这套框架。第十篇的半群把这些“静态”谱信息变成“动态”时间演化,把 PDE 写成无穷维 ODE。第十一篇引入分布与 Sobolev 空间,让弱解和奇异函数有合法户口。第十二篇把所有这些机器接到具体应用上:椭圆方程靠 Lax-Milgram,变分极小化靠紧嵌入,量子力学靠 Stone 定理。
真正让我觉得这套理论值的,是它的复用率。同一条 Banach-Steinhaus 在 PDE 里证 a priori 估计、在数值分析里证稳定性、在概率里证特征函数收敛;同一条紧嵌入在椭圆存在性、半群解析性、谱离散化里反复出现;同一条谱定理统一了对称矩阵、紧自共轭算子、Schrödinger Hamilton 算子。学一遍工具,用十次。
如果说这十二篇还有一点没讲清,那是“算子代数”这一支:$C^*$ -代数、von Neumann 代数、非交换几何、量子场论里的代数表述。本系列把谱论局限在自共轭算子的可交换情形,已经够 PDE 和单粒子量子力学使用,但要进入多粒子、相对论、量子场论,需要更进一步的代数语言。这是另一个系列的事了。
至此,泛函分析系列正式收尾。每一篇都是一个独立的工具,但合起来它们构成的是同一件事——把无穷维当作有限维的延伸,而不是它的对立面。
泛函分析 12 篇
- 01 泛函分析(一):度量空间 —— 距离、收敛与完备性
- 02 泛函分析(二):赋范空间与Banach空间
- 03 泛函分析(三):Hilbert 空间 —— 无限维空间中的几何
- 04 泛函分析(四):对偶空间与 Hahn-Banach 定理 —— 线性泛函的驯服
- 05 泛函分析(五):弱拓扑和弱*拓扑 —— 当范数收敛太强时
- 06 泛函分析(六):有界线性算子与三大定理
- 07 泛函分析(七):紧算子——通往有限维的桥梁
- 08 泛函分析(八):谱理论 —— 分解算子
- 09 泛函分析(九):无界算子 —— 当有界性失效时
- 10 泛函分析(十):算子半群 — 无限维空间中的演化方程
- 11 泛函分析(十一):分布与Sobolev空间 — 广义解
- 12 泛函分析(十二):泛函分析在行动 —— 偏微分方程和量子力学 当前