泛函分析（五）：弱拓扑和弱*拓扑 —— 当范数收敛太强时

弱拓扑和弱-* 拓扑——当范数收敛太强时#

一道无解的最小化题让我意识到了什么#

我第一次试图证明“在 $$L^2$$ 上某个能量泛函有极小值点”时，自然地照搬了有限维做法：取一个最小化序列，从有界集里抽一个收敛子列，让它的极限作为答案。前两步走到一半就卡住了： $$L^2$$ 闭单位球不紧，有界序列里抽不出范数收敛的子列。一个看似最朴素的存在性问题，因为“紧”消失而失败。

那次失败让我去翻 Banach-Alaoglu 定理，结果发现解决方案不是“想办法找回范数紧”，而是换一种弱一点的拓扑。在弱-* 拓扑下，对偶单位球依然紧。这条性质免费给我，是 Hahn-Banach 加 Tychonoff 一拼就有的。代价是收敛变弱：弱收敛序列可能不在范数上收敛，可能不逐点收敛，只对所有连续线性泛函逐个收敛。但对很多变分问题，这种弱收敛已经够用，前提是能量泛函本身在弱拓扑下下半连续。

这一篇要把这件事讲清楚：弱拓扑和弱-* 拓扑分别是什么、Banach-Alaoglu 给我什么紧性、自反空间为什么把弱紧性升级到 $$X$$ 自身、什么样的泛函在弱拓扑下下半连续、PDE 中弱+紧怎样升级成强收敛。这一套组合拳是“变分法直接方法”的全部技术内容，下游的椭圆 PDE 存在性、最优控制、量子基态、最优传输几乎都跑这同一个模板。

为什么弱拓扑存在以及它们为什么重要#

上一篇文章以一个令人沮丧的事实结束：在任何无限维赋范空间中，闭单位球不是紧的。没有有界序列能保证有一个依范数收敛的子序列。如果你想找到能量泛函的最小化器，比如振动膜的最低能量配置，你会取一个最小化序列，并需要一个极限。在有限维空间中，Bolzano-Weierstrass定理可以提供这个极限。但在到了无限维空间，它就不行了。变分法的直接方法似乎一开始就失败了。

解决办法是减弱拓扑。一个“更弱”的拓扑有更少的开集和更少的连续函数，这使得集合更容易成为紧的：因为要击败的开覆盖更少了，更多的集合可以通过紧性测试。但这种权衡是真实的：更弱的拓扑下，收敛的信息量更少。弱收敛序列可能不会逐点或依范数收敛。它只承诺对所有连续线性泛函收敛。但对于变分论证来说，这种较弱的收敛已经足够了，前提是能量泛函在弱拓扑下下半连续。

直接方法的基本模式如下：(1) 取一个最小化序列，(2) 提取出一个弱收敛子序列（由弱紧性保证），(3) 证明泛函在弱拓扑下半连续，因此弱极限是一个最小化器。这个模式几乎涵盖了椭圆型偏微分方程、最优控制和变分法中的所有存在性定理。弱拓扑不只是一个有趣的现象，它是让无限维优化成为可能的机制。

直觉上，范数拓扑要求在所有方向上同时收敛（范数衡量最坏情况下的偏差）。而弱拓扑只要求“一次一个泛函”地收敛。从有界序列中实现一次一个泛函的收敛要容易得多，许多能量泛函只需要这种较弱形式的收敛就能表现良好。拓扑提供的与泛函所需之间的不匹配正是直接方法利用的甜蜜点。

让我具体说明一下。考虑在 $$H^1_0(0,1)$$ 上最小化 $E(u) = \frac{1}{2}\int_0^1 |u'(t)|^2\,dt$ 并满足 $\int_0^1 u^2 = 1$ 。一个最小化序列 $$(u_n)$$ 在 $$H^1$$ 中是有界的（能量约束限制了导数范数）。在 $$H^1$$ 的范数拓扑中，无法提取出收敛子序列，因为单位球不紧。但 $$H^1$$ 是自反的，所以Banach-Alaoglu定理给出一个子序列 $u_{n_k} \rightharpoonup u^*$ 弱收敛于 $$H^1$$ 。根据Rellich-Kondrachov（紧嵌入 $H^1 \hookrightarrow L^2$ ），这个子序列在 $$L^2$$ 中强收敛，保持了约束 $\|u^*\|_{L^2} = 1$ 。泛函 $$E$$ 是凸且连续的，因此是弱下半连续的，所以 $E(u^*) \leq \liminf E(u_{n_k}) = \inf E$ 。最小化器 $u^*(t) = \sqrt{2}\sin(\pi t)$ 是 $$-d^2/dt^2$$ 在 $$[0,1]$$ 上带Dirichlet条件的基本态特征函数，特征值为 $\lambda_1 = \pi^2$ 。四行抽象泛函分析取代了原本需要一页显式PDE论证的内容，涉及分离变量和Sturm-Liouville理论。

这个模式完全通用。可以用任何凸强制泛函替换 $\int|u'|^2$ ，用 $\mathbb{R}^n$ 中的任何有界域替换 $$[0,1]$$ ，用任何弱闭约束集替换特征值约束。只要具备三个要素，强制性、紧性（通过自反性）和弱下半连续性（通过凸性），抽象机器就能产生最小化器。这就是为什么直接方法被称为“直接”：它避免了解欧拉-拉格朗日方程，而是通过抽象紧性论证构造最小化器。然后欧拉-拉格朗日方程作为结果被推导出来：最小化器满足方程，因为它是一个临界点。

弱拓扑：定义、例子和关键性质#

设 $$X$$ 是一个 Banach 空间，其对偶空间为 $$X^*$$ 。弱拓扑 $\sigma(X, X^*)$ 是使得每个 $\varphi \in X^*$ 连续的最粗拓扑。子基由集合 $\{x : |\varphi(x - x_0)| < \varepsilon\}$ 组成，其中 $\varphi \in X^*$ ， $x_0 \in X$ ， $\varepsilon > 0$ 。网 $(x_\alpha)$ 弱收敛于 $$x$$ ，记作 $x_\alpha \rightharpoonup x$ ，当且仅当对每个 $\varphi \in X^*$ 有 $\varphi(x_\alpha) \to \varphi(x)$ 。

因为每个 $\varphi \in X^*$ 都是范数连续的，所以弱拓扑比范数拓扑更粗：每个弱开集也是范数开集，但反之不成立。范数收敛蕴含弱收敛；但在无限维空间中，弱收敛不一定意味着范数收敛。

经典例子在 $\ell^2$ 中，标准基 $$(e_n)$$ 满足 $e_n \rightharpoonup 0$ ：对于任何 $y = (y_1, y_2, \ldots) \in \ell^2$ ， $\langle e_n, y\rangle = y_n \to 0$ ，因为 $\sum |y_k|^2 < \infty$ 要求 $y_n \to 0$ 。但 $\|e_n\| = 1$ 对所有 $$n$$ 成立。每个 $$e_n$$ 指向一个新的正交方向，其投影到任何固定方向趋于零，但总长度保持不变。这在有限维空间中是不可能的（有限维空间中，有界集上的弱收敛和范数收敛一致），体现了无限维弱收敛的本质新颖性。

振荡例子在 $L^2[0, 2\pi]$ 中，函数 $f_n(t) = \sin(nt)$ 通过 Riemann-Lebesgue 引理弱收敛于零： $\int_0^{2\pi} g(t)\sin(nt)\,dt \to 0$ 对所有 $g \in L^2$ 成立。但 $\|f_n\|_2 = \sqrt{\pi}$ 对所有 $$n$$ 成立。快速振荡与任何固定的测试函数平均后趋于零，这是它的物理内容。高频振荡对弱拓扑“不可见”；只有振幅包络重要。当说“快速振荡序列的弱极限是其局部平均”时，这就是精确表述。

关键性质：

唯一性。弱极限是唯一的，因为 $$X^*$$ 分离点（Hahn-Banach）：如果 $\varphi(x) = \varphi(y)$ 对所有 $\varphi$ 成立，则 $$x = y$$ 。
一致有界性。如果 $x_n \rightharpoonup x$ ，则 $\sup_n \|x_n\| < \infty$ （通过一致有界原理应用于泛函 $\hat{x}_n \in X^{**}$ ）且 $\|x\| \leq \liminf_n \|x_n\|$ （范数是弱下半连续的）。
算子连续性。有界算子是弱到弱连续的：如果 $T \in B(X,Y)$ 且 $x_n \rightharpoonup x$ ，则 $Tx_n \rightharpoonup Tx$ 。
Mazur 定理。每个范数闭凸集是弱闭的。这是连接两种拓扑的桥梁。证明使用几何 Hahn-Banach：一个闭凸集可以通过超平面从外部点分离，从而定义一个弱邻域。
非线性失效。弱收敛不保留非线性运算。如果 $f_n \rightharpoonup 0$ 在 $$L^2$$ 中，不一定有 $f_n^2 \rightharpoonup 0$ 在 $$L^1$$ 中。实际上 $\sin^2(nt) = \frac{1}{2}(1 - \cos(2nt)) \rightharpoonup \frac{1}{2}$ ，不是 $$0$$ 。弱收敛序列乘积的极限需要额外的紧性，这正是非线性偏微分方程的基本困难。

非线性运算在弱极限下的失效值得深入思考，因为它使理论变得真正困难。考虑一个非线性偏微分方程如 $-\Delta u + u^3 = f$ 的近似解序列 $$u_n$$ 。如果 $u_n \rightharpoonup u$ 在 $$H^1$$ 中弱收敛，能否得出 $u_n^3 \rightharpoonup u^3$ ？不能，弱收敛对立方项无能为力。但 Rellich-Kondrachov 给出 $u_n \to u$ 在 $$L^p$$ 中强收敛（ $$p < 6$$ 在三维情况下），而强收敛确实保留连续非线性项： $u_n \to u$ 在 $$L^4$$ 中意味着 $u_n^3 \to u^3$ 在 $L^{4/3}$ 中。因此，弱收敛（来自线性部分）和强收敛（来自紧嵌入）之间的相互作用使非线性偏微分方程的存在性证明得以进行。线性机制提供弱极限；紧嵌入升级为较弱范数中的强收敛；非线性项在这些较弱范数中处理。这种三层结构（强空间中的弱收敛，弱空间中的强收敛，弱空间中的非线性传递）是非线性偏微分方程存在性证明的通用架构。

补偿紧性（Murat-Tartar，1978）进一步推进了这一概念：即使没有完全的强收敛，某些特定组合的弱收敛序列也可以收敛。如果 $\text{curl}\,E_n = 0$ 和 $\text{div}\,B_n = 0$ （Maxwell 方程），则 $E_n \cdot B_n$ 在分布意义下收敛，即使 $$E_n$$ 和 $$B_n$$ 只是弱收敛。散度-旋度引理是原型，并在均匀化、守恒律和弹性多凸能量理论中有应用。当标准“紧嵌入”路线失败时，补偿紧性是首选方法。

无限维空间上的弱拓扑不是第一可数的（因此不可度量化）。原则上必须使用网。然而，Eberlein-Smulian 定理 救了场：Banach 空间中的集合是弱紧的当且仅当它是弱序列紧的。因此，在自反空间中的有界集上，提取弱收敛子序列总是合法的。每个偏微分方程证明隐式地引用 Eberlein-Smulian 当写“提取一个弱收敛子序列”。

空间 $$X$$ 是自反的当且仅当 $$B_X$$ 是弱紧的（Kakutani）。等价地说，每个有界序列有一个弱收敛子序列。自反空间（如 $$L^p$$ 对 $1 < p < \infty$ ，Sobolev 空间 $W^{k,p}$ 对 $1 < p < \infty$ ，Hilbert 空间）是直接方法的自然栖息地。在非自反空间（如 $$L^1$$ ， $L^\infty$ ， $$C(K)$$ ）中，必须转到对偶空间中的弱-*紧性，这是另一种更微妙的操作。

为什么 $$L^1$$ 不是自反的？序列 $f_n = n\mathbf{1}_{[0,1/n]}$ 有 $\|f_n\|_1 = 1$ 但没有弱收敛子序列：“极限”想成为 $\delta_0$ ，一个不在 $$L^1$$ 中的测度。Dunford-Pettis 定理刻画了 $$L^1$$ 中的弱紧性：有界集相对弱紧当且仅当它是一致可积的。集中序列 $$f_n$$ 违反了一致可积性，因此在 $$L^1$$ 中没有弱极限。这就是为什么在 $$BV$$ （有界变差）中的变分问题需要在更大的测度空间中用弱-*拓扑工作，而不是在 $$L^1$$ 中用弱拓扑。

弱-* 拓扑与 Banach-Alaoglu 定理#

对偶空间 $$X^*$$ 除了范数拓扑外，还有一种自然的拓扑。弱-* 拓扑 $\sigma(X^*, X)$ 是使每个评价映射 $\hat{x}: \varphi \mapsto \varphi(x)$ 对于 $x \in X$ 连续的最粗拓扑。网 $\varphi_\alpha \xrightarrow{w^*} \varphi$ 当且仅当对于每个 $x \in X$ ， $\varphi_\alpha(x) \to \varphi(x)$ 。

弱-* 拓扑是“弱拓扑”加一个反向操作。在 $$X$$ 上有弱拓扑——用 $$X^*$$ 中的泛函来测试 $$X$$ 中的元素；现在在 $$X^*$$ 上有弱-* 拓扑——用 $$X$$ 中的元素来测试 $$X^*$$ 中的泛函。这两件事方向相反但思路同源：减少“开集数量”以增加“紧集数量”。如果 $$X$$ 自反（ $X = X^{**}$ ），那么这两个拓扑在 $$X^*$$ 上完全一致；否则弱-* 拓扑严格弱于 $$X^*$$ 上的弱拓扑——因为 $X^{**}$ 比 $$X$$ （在典范嵌入下）大。

弱-* 拓扑相对弱拓扑的优势是它的通用紧性：Banach-Alaoglu 定理对任何赋范空间都成立——不需要自反性、不需要可分性。代价是它只在对偶空间 $$X^*$$ 上有，原空间 $$X$$ 上还是只有弱拓扑。在自反空间里这个差别消失，弱拓扑也有通用紧性；在非自反空间里就要小心区分。比如在 $$L^1$$ 里没有弱紧的单位球（ $$L^1$$ 不自反），但在它的对偶 $L^\infty$ 里有弱-* 紧的单位球，所以变分论证必须放到 $L^\infty$ （或者更一般地，到 $$C^*$$ 中的弱-* 紧测度集）里去做。

区别在于： $$X^*$$ 上的弱-* 拓扑只用 $$X$$ 中的元素作为测试对象，而弱拓扑 $\sigma(X^*, X^{**})$ 使用所有 $X^{**}$ 中的元素。如果 $$X$$ 是自反的（即 $X = X^{**}$ ），这两种拓扑一致。否则，弱-* 拓扑更粗糙：测试泛函更少，开集就更少，紧集也就更多。

最重要的紧性定理是：

Banach-Alaoglu 定理指出，闭单位球 $B_{X^*} = \{\varphi \in X^* : \|\varphi\| \leq 1\}$ 在弱-* 拓扑下是紧的。

证明概要：对于每个 $x \in X$ ，值 $\{\varphi(x) : \varphi \in B_{X^*}\}$ 位于圆盘 $D_x = \{z : |z| \leq \|x\|\}$ 内。通过映射 $\varphi \mapsto (\varphi(x))_x$ 将 $B_{X^*}$ 嵌入到 $\prod_{x \in X} D_x$ 中。根据 Tychonoff 定理，乘积是紧的（每个 $$D_x$$ 在 $\mathbb{C}$ 中是紧的，任意紧空间的乘积也是紧的）。 $B_{X^*}$ 的像是在乘积拓扑下的闭子集：线性条件 $\varphi(\alpha x + y) = \alpha\varphi(x) + \varphi(y)$ 和有界条件 $|\varphi(x)| \leq \|x\|$ 定义了乘积中的闭子集。紧空间的闭子集是紧的。限制在像上的乘积拓扑正是弱-* 拓扑。

这个证明的优雅不应掩盖其内容：它表明 $$X$$ 上的有界线性泛函由它们在 $$X$$ 上的所有值确定，并且当赋予逐点收敛拓扑时，这样的值分配空间是紧的。证明完全是拓扑性的，不需要任何特定于 Banach 空间的论证，只需线性和有界条件是闭的。这就是为什么 Banach-Alaoglu 定理适用于任何赋范空间（不仅是完备的），甚至适用于局部凸空间（只要适当定义“有界”）。

不需要可分性或自反性，Banach-Alaoglu 定理普遍适用。代价是紧性是在弱-* 拓扑下，而不是在范数拓扑下。对于序列：如果 $$X$$ 是可分的，那么 $B_{X^*}$ 上的弱-* 拓扑是可度量化的（通过 $d(\varphi, \psi) = \sum 2^{-n}|\varphi(x_n) - \psi(x_n)|$ 对于稠密的 $$(x_n)$$ ），因此 $$X^*$$ 中的每个有界序列都有一个弱-* 收敛的子序列。

如果 $$X$$ 是自反的，那么 $$B_X$$ 本身在弱拓扑下是紧的（通过典范同构将 $$B_X$$ 识别为 $B_{X^{**}}$ ，并注意到 $X^{**}$ 上的弱-* 拓扑限制到 $$X$$ 上就是弱拓扑）。因此，在自反空间中，每个有界序列都有一个弱收敛的子序列，这是偏微分方程里常用的形式。

Goldstine 定理 加强了 Banach-Alaoglu 定理：单位球在典范嵌入 $J: X \to X^{**}$ 下的像 $$J(B_X)$$ 在 $B_{X^{**}}$ 中是弱-* 密的。如果 $$X$$ 是自反的， $J(B_X) = B_{X^{**}}$ 。否则， $$J(B_X)$$ 是一个真但稠密的子集： $X^{**}$ 中的每个元素都可以在弱-* 意义下被 $$X$$ 中的元素逼近。

由于 $(\ell^1)^* = \ell^\infty$ ，Banach-Alaoglu 定理给出了 $\ell^\infty$ 单位球在 $\ell^1$ 测试下的弱-* 紧性。具体来说： $\ell^\infty$ 中的有界序列有子序列逐点收敛（弱-* 意味着对于所有 $(x_j) \in \ell^1$ ， $\sum_j \varphi_{n_k}(j) x_j \to \sum_j \varphi(j) x_j$ ，对于 $$x = e_j$$ 给出 $\varphi_{n_k}(j) \to \varphi(j)$ ）。这是经典对角线提取方法的一个概括。

值得注意的是： $L^\infty$ 函数序列的弱-* 极限可能没有任何好的正则性。考虑 $[0, 2\pi]$ 上的函数 $f_n(x) = \text{sgn}(\sin(nx))$ ，视为 $L^\infty = (L^1)^*$ 中的元素。每个 $$f_n$$ 取值 $\pm 1$ 。弱-* 极限（针对 $$L^1$$ 测试函数）是 $$f = 0$$ ：对于任何 $g \in L^1$ ， $\int g(x)\text{sgn}(\sin(nx))\,dx \to 0$ 由 Riemann-Lebesgue 引理。极限 $$f = 0$$ 比近似函数光滑得多，其 $L^\infty$ 范数也较小（0 对比 1）。这是“弱-* 收敛下的范数下降”现象：范数在弱-* 拓扑下只是下半连续的，不是连续的。

关于选择公理的注记：一般的 Banach-Alaoglu 定理使用了 Tychonoff 定理，这等价于选择公理。对于可分的 $$X$$ ，构造性的对角线证明就足够了： $B_{X^*}$ 上的弱-* 拓扑可以通过 $d(\varphi, \psi) = \sum 2^{-n}|\varphi(x_n) - \psi(x_n)|$ 度量化，度量空间中的序列紧性可以在没有选择公理的情况下证明。由于大多数应用涉及可分空间，选择公理的依赖通常是学术性的，但对于基础研究仍然值得了解。

Banach-Alaoglu 定理还有一个有用的逆命题：如果线性泛函 $\Lambda: X \to \mathbb{C}$ 在 $B_{X^*}$ 的弱-* 闭包中但不在 $B_{X^*}$ 本身内，那么 $\Lambda$ 不是范数有界的。更准确地说， $$X^*$$ 中凸集的弱-* 闭包等于它的范数闭包（通过 Goldstine 定理的分离论证）。这意味着对于 $$X^*$$ 中的凸子集，弱-* 闭和范数闭是一样的，这是 Mazur 定理的对偶版本。这一事实广泛用于优化理论（对偶理论，其中希望知道对偶可行性约束在弱-* 极限下保持不变）。

弱下半连续性和直接方法详解#

函数 $F: X \to \mathbb{R} \cup \{+\infty\}$ 是弱下半连续的（弱 l.s.c.）如果每当 $x_n \rightharpoonup x$ 时，有 $F(x) \leq \liminf_n F(x_n)$ 。次水平集 $\{x : F(x) \leq c\}$ 是弱闭的。

核心结论是：凸泛函是弱下半连续的当且仅当它是范数下半连续的（等价地，对于在整个空间上定义的凸泛函，当且仅当它是范数连续的）。这从 Mazur 定理得出：范数闭凸集是弱闭的，因此次水平集 $\{F \leq c\}$ 如果是范数闭的（从范数下半连续性得出）和凸的（从 $$F$$ 的凸性得出），那么它们自动是弱闭的。结果是：每个在自反 Banach 空间上的凸连续泛函都是弱下半连续的。这个事实涵盖了大多数应用：泛函 $u \mapsto \int |\nabla u|^p$ 是 $W^{1,p}$ 上的凸连续泛函，因此是弱下半连续的。更一般地，只要 $$F$$ 是凸的并且具有适当的增长条件， $u \mapsto \int F(\nabla u)$ 在 $W^{1,p}$ 上也是弱下半连续的，这就是变分法中的 Tonelli 定理，它几乎涵盖了所有“良好行为”的弹性力学和偏微分方程中的能量泛函。

对于非凸泛函，弱下半连续性通常不成立（我们将在失败模式部分看到这一点）。拟凸性理论（Morrey, 1952）确定了确保 $\int F(\nabla u)$ 对于向量值 $$u$$ 弱下半连续的积分核 $$F$$ 的确切条件：它比凸性弱但比秩一凸性强，并且仍然是变分法中最深奥和最难处理的条件之一。

直接方法，详细说明：最小化 $E: X \to \mathbb{R}$ 在约束集 $$C$$ 上：

强制性： 当 $\|x\| \to \infty$ 时， $E(x) \to \infty$ （或者 $$C$$ 有界）。最小化序列保持有界。
紧性： 提取 $x_{n_k} \rightharpoonup x^*$ （Banach-Alaoglu 定理加上自反性）。
$$C$$ 的弱闭性： $x^* \in C$ （约束在弱极限下保持）。
$$E$$ 的弱下半连续性： $E(x^*) \leq \liminf E(x_{n_k}) = \inf_C E$ 。完成。

实例：量子阱的基态：最小化 $E(u) = \frac{1}{2}\int_{\mathbb{R}^3} |\nabla u|^2 + \int_{\mathbb{R}^3} V|u|^2$ 使得 $\|u\|_{L^2} = 1$ 并且 $V(x) \to \infty$ 当 $|x| \to \infty$ 时（限制势）。

步骤 1： $V \to \infty$ 给出强制性：有界的能量迫使 $$u$$ 局部化，因此在 $$H^1$$ 中有界。步骤 2： $H^1(\mathbb{R}^3)$ 是自反的；提取 $u_{n_k} \rightharpoonup u^*$ 弱收敛。步骤 3：通过 Rellich-Kondrachov 定理在每个有界域上加上 $$V$$ 的限制， $u_{n_k} \to u^*$ 在 $$L^2$$ 中强收敛，保持 $\|u^*\|_{L^2} = 1$ 。步骤 4： $\int|\nabla u|^2$ 和 $\int V|u|^2$ 都是凸的和连续的，因此是弱下半连续的。所以 $E(u^*) \leq \liminf E(u_{n_k})$ 。

最小化器 $$u^*$$ 满足 Euler-Lagrange 方程 $-\frac{1}{2}\Delta u^* + Vu^* = \lambda u^*$ （Schrödinger 特征值问题），其中 $\lambda$ 是 Lagrange 乘子（基态能量）。整个存在性论证简化为四个抽象步骤，每一步都调用了一个工具。识别 $$u^*$$ 为特征函数需要额外的变分论证（单位球面上的任何临界点满足一个特征值方程），但存在性这一最困难的部分，已经被弱紧性干净地解决了。

这种模式远远超出了量子力学。极小曲面在边界约束下最小化面积。最优传输在概率测度上最小化成本泛函（通过 Prokhorov 定理得到弱-* 紧性）。最优控制在 ODE 轨迹上最小化成本（有界可测控制的弱紧性）。在每种情况下，四步结构都保持相同的逻辑框架。

失败模式及其解决方法#

理解直接方法何时失效，有助于明白每个假设的必要性。以下是三种有启发性的失效情况：

反射性失效。在 $W^{1,1}[0,1]$ 上最小化 $\|u'\|_{L^1}$ ，条件是 $$u(0) = 0$$ 和 $$u(1) = 1$$ 。下确界是 1（牛顿-莱布尼茨公式）。最小化序列逼近阶梯函数，但 $W^{1,1}$ 不是自反的，不存在弱收敛子序列。“极限” 存在于 $$BV$$ （有界变差函数）中，而不是原空间。最小化器是从 0 跳到 1 的阶梯函数，它存在于 $$BV$$ 中，但不在 $W^{1,1}$ 中。解决方法：扩大空间到 $$BV$$ 并使用测度的弱-* 紧性，而不是 $$L^1$$ 导数的弱紧性。

弱下半连续性失效（非凸性）。在 $$H^1_0(0,1)$$ 上最小化 $E(u) = \int_0^1 (|u'|^2 - 1)^2\,dt$ 。下确界是 0，由锯齿形函数 $$u_n$$ 达到，这些函数有 $$n$$ 个振荡和斜率 $\pm 1$ （因此 $$|u_n'| = 1$$ 几乎处处，使得 $$E(u_n) = 0$$ ）。但 $u_n \rightharpoonup 0$ 在 $$H^1$$ 中且 $E(0) = 1 \neq 0$ 。泛函不是凸的（被积函数 $W \mapsto (W^2 - 1)^2$ 不是凸的），因此它不是弱下半连续的。弱极限不能成为最小化器，因为泛函 “看到” 了弱拓扑忽略的振荡。

这种失效在材料科学中非常重要：能量模型描述了一种更喜欢应变为 $\pm 1$ 的材料（两个相）。不存在光滑的最小化器，只有无限精细的微结构（交替相）。解决方法：松弛将 $$E$$ 替换为其弱下半连续包络（被积函数的凸化），而 Young 测度 描述振荡统计。在点 $$t$$ 处的 Young 测度记录梯度 $$u_n'(t)$$ 的概率分布：对于锯齿形函数，它是 $\frac{1}{2}\delta_{+1} + \frac{1}{2}\delta_{-1}$ ，表示 “一半时间斜率为 +1，另一半时间斜率为 -1”。这是微结构理论的功能分析基础。

紧性失效（平移不变性）。在 $H^1(\mathbb{R})$ 上最小化 $E(u) = \frac{1}{2}\int_{\mathbb{R}} |u'|^2$ ，条件是 $\|u\|_{L^2} = 1$ 。一个最小化序列可以平移到无穷远： $$u_n(t) = u_0(t - n)$$ ，其中 $$u_0$$ 固定。那么 $$E(u_n) = E(u_0)$$ 但 $u_n \rightharpoonup 0$ 在 $$H^1$$ 中（支撑集移动到 $+\infty$ ）。约束 $\|u_n\|_{L^2} = 1$ 没有保持，因为 Rellich-Kondrachov 在 $\mathbb{R}$ 上不成立（嵌入 $H^1(\mathbb{R}) \hookrightarrow L^2(\mathbb{R})$ 不是紧的，质量可以逃逸）。解决方法：集中-紧性（Lions, 1984）将最小化序列分解为紧凑部分、消失部分和二分部分，即使在无界域上也能恢复结构。关键见解：如果紧致性成立（质量不逃逸），则平移后的子序列收敛，通常可以通过对称性撤销平移。

这三种失效不是病态现象，它们就出现在物理和工程中。 $$BV$$ 松弛在图像处理（全变差去噪）中出现。非凸微结构在形状记忆合金中出现。集中-紧性失效在量子化学（分子解离）中出现。每种失效都催生了丰富的理论，每种解决方法都是针对四步方案特定失效的修改紧性论证。

算子拓扑与PDE中的紧性#

有界算子空间 $$B(X, Y)$$ 携带三种拓扑，从不同角度揭示了弱收敛：

$T_n \to T$ 如果 $\|T_n - T\| \to 0$ 。这是最强的拓扑。
$T_n \to T$ 如果对每个 $$x$$ ， $T_n x \to Tx$ 在 $$Y$$ -范数下。
$T_n \to T$ 如果对每个 $x \in X$ 和 $\psi \in Y^*$ ， $\psi(T_n x) \to \psi(Tx)$ 。

右移算子 $$S$$ 在 $\ell^2$ 上展示了这种区别： $\|S^n\| = 1$ 对所有 $$n$$ 成立（没有范数收敛），但 $S^n \to 0$ 在 WOT 下（因为 $\langle S^n x, y\rangle = \sum_k x_k\overline{y_{k+n}} \to 0$ ）。后移算子 $(S^*)^n \to 0$ 在 SOT 下（因为 $\|(S^*)^n x\|^2 = \sum_{k>n}|x_k|^2 \to 0$ ）但不在范数下。这三种拓扑确实分层，这种分层不是人为的，它反映了物理上有意义的区别。范数收敛意味着算子在所有输入上都一致接近。SOT 意味着它们在每个单独的输入上接近（但不一致）。WOT 意味着它们在每个单独的测量中接近（与泛函配对）。每次减弱允许更多的序列收敛，但代价是更少的一致控制。

对于谱理论的实际后果：自伴算子的谱分解 $T = \int \lambda\,dE(\lambda)$ 在 SOT 下收敛（部分积分 $\int_{-N}^N \lambda\,dE(\lambda) \to T$ 在强算子拓扑下），但通常不在范数下。对于半群（文章 10），指数 $e^{tA} \to I$ 当 $t \to 0$ 在 SOT 下（强连续性）但通常不在范数下。拓扑的选择由应用决定：算子代数使用范数闭包（ $$C^*$$ -代数），von Neumann 代数使用 WOT/SOT 闭包（ $$W^*$$ -代数），半群理论使用 SOT 连续性。

与 PDE 的深层联系通过紧嵌入实现。Rellich-Kondrachov 定理 表明：对于有界 Lipschitz 区域 $\Omega \subset \mathbb{R}^n$ ，包含 $W^{1,p}(\Omega) \hookrightarrow L^p(\Omega)$ 是紧的（ $1 \leq p < \infty$ ）。这把 Sobolev 空间中的弱收敛转换成 $$L^p$$ 中的强收敛，而这种升级保留了非线性约束。

对于演化 PDE，Aubin-Lions 引理 提供了时间依赖的类似物：如果 $X_1 \subset X \subset X_0$ 且 $X_1 \hookrightarrow X$ 是紧的，则 $\{u \in L^p(0,T; X_1) : u' \in L^q(0,T; X_0)\}$ 嵌入到 $$L^p(0,T; X)$$ 中是紧的。具有受控空间正则性和受控时间导数的有界时间依赖函数序列在中间空间中有收敛子序列。这就是 Navier-Stokes 方程、非线性 Schrödinger 方程和反应扩散方程存在性证明的基础。

实例：热方程的 Galerkin 方法：对于 $u_t - \Delta u = f$ 且 Dirichlet 条件，Galerkin 近似 $u_N = \sum_{k=1}^N c_k(t) e_k(x)$ 满足 $\|u_N\|_{L^2(0,T;H^1)} \leq C$ 和 $\|\partial_t u_N\|_{L^2(0,T; H^{-1})} \leq C$ 。Aubin-Lions 给出一个子序列在 $L^2(\Omega \times (0,T))$ 中强收敛。在弱形式中取极限可以识别极限为弱解。抽象的紧性机制处理了困难的部分；弱形式的代数处理了其余部分。

这种模式扩展到非线性问题。对于不可压缩 Navier-Stokes 方程 $u_t + (u \cdot \nabla)u - \nu\Delta u + \nabla p = f$ 且 $\text{div}\,u = 0$ ，Galerkin 近似满足相同类型的估计（能量估计给出 $$L^2(0,T; H^1)$$ 有界；方程给出 $\partial_t u_N$ 在 3D 中 $L^{4/3}(0,T; V^*)$ 有界）。Aubin-Lions 提取出一个在 $$L^2$$ 中强收敛的子序列，这足以在非线性项 $(u \cdot \nabla)u$ 中取极限（双线性于 $$u$$ ，所以一个因子的强收敛就足够了）。这就是 Leray 在 1934 年关于 Navier-Stokes 方程弱解存在的论证，也是 PDE 中弱拓扑方法的一个里程碑式应用。

限制在于：Aubin-Lions 只提供在中间空间中的强收敛，而不是在强空间本身。对于 Navier-Stokes 方程，我们得到 $u_{N_k} \to u$ 在 $$L^2$$ 中但不在 $$H^1$$ 中。这足以证明存在性但不足以证明唯一性（需要控制完整的 $$H^1$$ 范数）。从这个角度看，Navier-Stokes 正则性的著名开放问题是关于 Aubin-Lions 无法提供的强收敛是否实际成立。弱拓扑机制提供了存在性；超越它就是千禧年大奖的问题所在。

概率与弱-*收敛：Prokhorov定理#

$$C(K)^* = M(K)$$ （紧集 $$K$$ 上的Radon测度）上的弱-*拓扑是 $\mu_n \xrightarrow{w^*} \mu$ 当且仅当对所有 $f \in C(K)$ ，有 $\int f\,d\mu_n \to \int f\,d\mu$ 。这正是概率中的“分布收敛”。

Banach-Alaoglu定理在这里适用：紧度量空间上每个概率测度序列都有一个弱-*收敛的子序列。在非紧空间中，需要额外条件防止质量逃逸：如果对于每个 $\varepsilon > 0$ 存在一个紧集 $K_\varepsilon$ 使得对所有 $\mu \in \Pi$ 有 $\mu(K_\varepsilon) > 1 - \varepsilon$ ，则称族 $\Pi$ 是紧的。

核心结论是：在Polish空间（可分完备度量空间）上，一族概率测度相对弱紧当且仅当它是紧的。

证明可以归结为Banach-Alaoglu定理：紧族可以在紧集上近似，而Banach-Alaoglu定理在这些紧集上适用；通过对角线论证可以扩展到整个空间。反证法也很有启发性：点 $n \to \infty$ 处的Dirac测度 $\delta_n$ 形成一个非紧族，它们作为概率测度没有弱-*收敛的子序列（唯一可能的极限会有零总质量）。紧性条件恰好防止了质量逃逸。

实际操作中，验证一族概率测度的紧性通常归结为矩界。如果对某个 $$p > 0$$ 有 $\sup_n \int |x|^p\,d\mu_n < \infty$ ，那么 $\{\mu_n\}$ 是紧的（由Chebyshev不等式： $\mu_n(|x| > R) \leq R^{-p}\int|x|^p d\mu_n$ ）。因此，有界矩意味着紧性，进而意味着相对弱紧性。矩界 $\Rightarrow$ 紧性 $\Rightarrow$ Prokhorov定理 $\Rightarrow$ 收敛子序列这一链条是概率论版本的分析链：能量界 $\Rightarrow$ $$H^1$$ 有界 $\Rightarrow$ Banach-Alaoglu定理 $\Rightarrow$ 弱极限。逻辑结构相同，但词汇不同。

*实例：Riemann和作为弱-收敛。 设 $\mu_n$ 在 $\{0, 1/n, \ldots, (n-1)/n\}$ 上均匀分布。则对所有 $f \in C[0,1]$ 有 $\int f\,d\mu_n = \frac{1}{n}\sum_{k=0}^{n-1} f(k/n) \to \int_0^1 f\,dt$ 。因此 $\mu_n \to \text{Lebesgue}$ 在弱-*意义下。微积分中的“Riemann和收敛”实际上就是泛函分析中的“离散均匀测度弱-*收敛到Lebesgue测度”。全变差范数 $\|\mu_n - \text{Leb}\|_{TV} = 2$ 对所有 $$n$$ 成立：这种收敛纯粹是拓扑的，不是范数意义上的度量收敛。这个例子表明，即使范数距离很大，弱-*收敛也可以用离散对象逼近连续对象。

更复杂的单位逼近例子：Fejer核 $F_n(t) = \frac{1}{n}\left(\frac{\sin(nt/2)}{\sin(t/2)}\right)^2$ 在 $[-\pi,\pi]$ 上定义的测度 $\nu_n = F_n dt/(2\pi)$ 弱-*收敛到 $\delta_0$ 。Fourier级数的Fejer求和（Cesaro平均）是与 $\nu_n$ 的卷积，而在连续点处收敛到 $$f$$ 是 $\nu_n \to \delta_0$ 弱-*的结果。PDE中的每个“单位逼近”（如磨光子、小时间热核）都是光滑密度弱-*收敛到Dirac测度。

热核例子：测度 $\mu_t = (4\pi t)^{-d/2}e^{-|x|^2/(4t)}dx$ 在 $\mathbb{R}^d$ 上满足 $\mu_t \to \delta_0$ 弱-* 当 $t \to 0^+$ （集中），但在 $t \to \infty$ 时没有弱极限（质量扩散，违反紧性）。这种转变由 $-\Delta$ 的谱控制：每个特征模式 $e^{-\lambda_k t}$ 的指数衰减控制速率。在具有Dirichlet条件的有界域 $\Omega$ 上，热核以 $e^{-(\lambda_2 - \lambda_1)t}$ 的速率（其中 $\lambda_1 < \lambda_2$ 是前两个特征值）指数收敛到第一特征函数。在 $\mathbb{R}^d$ 上没有谱隙，谱是连续的 $[0, \infty)$ ，于是质量多项式扩散而不是收敛到稳态。离散谱和连续谱的区别决定了热半群是否有弱-*极限。

Glivenko-Cantelli定理（经验分布收敛到真实分布）是随机测度的弱-*收敛。中心极限定理是重缩放卷积幂弱收敛到高斯分布。大偏差理论研究指数速率。在每种情况下，Banach-Alaoglu定理和紧性提供了结构骨架，而概率内容则填充了定量估计。概率中的“分布收敛”与 $$C_b^*$$ 中的弱-*收敛相同，这意味着泛函分析的所有工具，紧集、连续泛函、下半连续性，都可以直接应用于概率极限定理。泛函分析不仅为概率提供技术，还提供了正确的语言。

数值算例： $\sin(n\pi t)$ 在 $$L^2[0,1]$$ 中弱收敛到零但不强收敛#

把弱收敛和强收敛的差距压成具体数字。考虑序列 $f_n(t) = \sin(n\pi t)$ 在 $$L^2[0,1]$$ 上。

范数： $\|f_n\|_2^2 = \int_0^1 \sin^2(n\pi t)\,dt = 1/2$ 。所以 $\|f_n\|_2 = 1/\sqrt{2} \approx 0.707$ 对所有 $$n$$ 成立。范数收敛到 $$0$$ ？不可能，序列范数恒定。

弱收敛： 取任意 $g \in L^2[0,1]$ 。 $\langle f_n, g \rangle = \int_0^1 \sin(n\pi t) g(t)\,dt$ 。这是 $$g$$ 的第 $$n$$ 个 Fourier 正弦系数。Bessel 不等式说 $\sum_n |\langle f_n, g\rangle|^2 \leq C \|g\|_2^2 < \infty$ ，所以 $\langle f_n, g\rangle \to 0$ 当 $n \to \infty$ 。换言之， $f_n \rightharpoonup 0$ 弱收敛到 $$0$$ 。

具体数： 取 $$g(t) = 1$$ （常函数）。 $\langle f_n, 1\rangle = \int_0^1 \sin(n\pi t)\,dt = (1 - \cos(n\pi))/(n\pi) = (1 - (-1)^n)/(n\pi)$ 。 $$n = 1$$ ： $2/\pi \approx 0.6366$ 。 $$n = 3$$ ： $2/(3\pi) \approx 0.2122$ 。 $$n = 99$$ ： $2/(99\pi) \approx 0.00643$ 。 $$n = 999$$ ： $\approx 0.000637$ 。线性向 $$0$$ 衰减。再取 $$g(t) = t$$ ： $\langle f_n, t\rangle = \int_0^1 t \sin(n\pi t)\,dt = -\cos(n\pi)/(n\pi) + 1/(n^2\pi^2)$ 主项 $|\cos(n\pi)|/(n\pi) = 1/(n\pi)$ ，同样以 $$1/n$$ 衰减。每个固定的测试函数 $$g$$ 都被以可计算的速率"看穿"，对应弱收敛。

两种收敛的真实差距： 范数距离 $\|f_n - 0\|_2 = 1/\sqrt{2}$ 永远是常数。弱距离（用任何固定 $$g$$ 来看）以 $$1/n$$ 衰减到 $$0$$ 。这两个数字的差距，常数对 $$1/n$$ ，正是弱拓扑相比范数拓扑放宽出来的空间。变分法的"弱紧性"就是利用这条 $$1/n$$ 衰减来在没有范数收敛时仍能抽出极限。

反例：弱收敛不能保留范数和非线性运算#

弱收敛比强收敛"丢失"了哪些信息？两个具体反例。

反例 1：范数不弱下半连续。 上面的 $f_n = \sin(n\pi t)$ 弱收敛到 $$0$$ ，但 $\|f_n\|_2 = 1/\sqrt{2}$ 不收敛到 $\|0\|_2 = 0$ 。范数只是弱下半连续： $\|0\|_2 \leq \liminf \|f_n\|_2$ 即 $0 \leq 1/\sqrt{2}$ 。“弱极限的范数 $\leq$ 范数的下极限"是 Banach-Alaoglu 给的标准结论，但等号不成立。这条不等式让"弱收敛 + 范数收敛 = 强收敛"成为有用的引理（Radon-Riesz 性质）：在 Hilbert 空间和一致凸 Banach 空间里， $x_n \rightharpoonup x$ 加 $\|x_n\| \to \|x\|$ 推出 $x_n \to x$ 强收敛。

反例 2：非线性算子破坏弱收敛。 $f_n \rightharpoonup 0$ 弱收敛，但平方 $f_n^2 = \sin^2(n\pi t) = (1 - \cos(2n\pi t))/2$ 弱收敛到常数 $$1/2$$ ，不是 $$0^2 = 0$$ 。“取平方"作为 $L^2 \to L^1$ 的算子不弱连续。弱收敛能在线性算子下保留（这正是它的定义），但任何非线性算子都可能破坏它。这是为什么变分问题需要紧嵌入：Rellich-Kondrachov 把 $$H^1$$ 的弱收敛升级到 $$L^2$$ 的强收敛，强收敛下非线性项才能取极限。“弱+紧→强"两步法是椭圆/抛物 PDE 存在性证明的标准模板。

常见陷阱：把弱-* 紧性当成范数紧性#

Banach-Alaoglu 给的是对偶单位球的弱-* 紧性，不是范数紧性。新手最常见的误用是引用 Banach-Alaoglu 后直接谈"由紧性抽收敛子列”，并默默假设那是范数收敛。

具体反例： $\ell^2$ 上标准基 $$e_n$$ 在闭单位球里。Banach-Alaoglu 说存在弱-* 收敛子列。事实上 $e_n \rightharpoonup 0$ 整个序列弱收敛。但 $\|e_n - 0\|_2 = 1$ 永远不衰减，没有范数收敛子列。如果论证某一步要用 $\|x_n - x\| \to 0$ ，弱-* 紧性根本派不上用场。

第二个陷阱：弱-* 紧性需要"取自对偶空间”。如果 $$X$$ 不反身（如 $\ell^1, L^1, L^\infty, C[K]$ ）， $$X$$ 自身的单位球不弱紧——只有 $$X^*$$ 的单位球弱-*紧。所以处理 $$L^1$$ 的有界序列时，要把它们看作 $(L^\infty)^*$ 的元素（通过 $f \mapsto \int f \cdot$ ）才能用 Banach-Alaoglu。这一翻译有时引入"奇怪的极限”：比如 $$L^1$$ 序列弱-*收敛到的对象可能是测度而不是函数。变分方法里出现的"测度值解"现象正是这个根源。

下一步#

现在，我们已经掌握了紧致性工具（Banach-Alaoglu、Eberlein-Smulian、Rellich-Kondrachov）和对偶理论（Hahn-Banach），这些是存在性论证所需的基础。下一篇文章将转向算子本身，以及三个重要的结构定理：一致有界性定理、开映射定理和闭图像定理。这三个定理约束了Banach空间之间有界算子的行为。它们都通过Baire纲定理利用了完备性。结合起来，这三个定理给出了Banach空间理论中的“刚性定理”：完备空间之间的算子不能太病态。

具体地，第六篇要回答四个问题：(1) 一族算子 $\{T_\alpha\}$ 如果在每一点 $$x$$ 上有界，是否在所有 $$x$$ 上一致有界？Banach-Steinhaus 给出"是"，证明把空间写成" $\|T_\alpha x\| \leq n$ 的所有 $\alpha$ “对应的闭集的可数并，再用 Baire 抽出一个有非空内部的；(2) 一个 Banach 空间之间的满射有界算子是否自动开——开映射定理给"是”，意味着双射有界算子的逆自动有界；(3) 一个线性算子 $$T$$ 如果图 $\{(x, Tx)\}$ 在 $X \times Y$ 中闭， $$T$$ 是否自动有界——闭图定理给"是"，把"验证有界"分解为"验证图闭"这条更弱的检查；(4) 三大定理之间的相互蕴含和共享的 Baire 论证。这四个结论合起来定义了"Banach 空间间的算子不能太病态"，它们是无穷维线性代数能正常工作的工程基础。第七篇会把这套工具用在紧算子上得到完整的谱分解。

这是泛函分析系列（共12篇文章）的第5部分。

泛函分析（五）：弱拓扑和弱*拓扑 —— 当范数收敛太强时

弱拓扑和弱-* 拓扑——当范数收敛太强时#

一道无解的最小化题让我意识到了什么#

为什么弱拓扑存在以及它们为什么重要#

弱拓扑：定义、例子和关键性质#

弱-* 拓扑与 Banach-Alaoglu 定理#

弱下半连续性和直接方法详解#

失败模式及其解决方法#

算子拓扑与PDE中的紧性#

概率与弱-*收敛：Prokhorov定理#

数值算例： $\sin(n\pi t)$ 在 $$L^2[0,1]$$ 中弱收敛到零但不强收敛#

反例：弱收敛不能保留范数和非线性运算#

常见陷阱：把弱-* 紧性当成范数紧性#

下一步#

泛函分析 12 篇

读有所得？

弱拓扑和弱-* 拓扑——当范数收敛太强时#

一道无解的最小化题让我意识到了什么#

为什么弱拓扑存在以及它们为什么重要#

弱拓扑：定义、例子和关键性质#

弱-* 拓扑与 Banach-Alaoglu 定理#

弱下半连续性和直接方法详解#

失败模式及其解决方法#

算子拓扑与PDE中的紧性#

概率与弱-*收敛：Prokhorov定理#

数值算例：$\sin(n\pi t)$ 在 $L^2[0,1]$ 中弱收敛到零但不强收敛#

反例：弱收敛不能保留范数和非线性运算#

常见陷阱：把弱-* 紧性当成范数紧性#

下一步#

泛函分析 12 篇

读有所得？

继续阅读

微分几何（十二）：纤维丛、特征类与物理学

微分几何（十）：黎曼几何 — 度量、联络和平行移动

微分几何（五）：高斯-博内定理 —— 几何与拓扑的交汇点

数值算例： $\sin(n\pi t)$ 在 $$L^2[0,1]$$ 中弱收敛到零但不强收敛#