泛函分析（一）：度量空间 —— 距离、收敛与完备性

为什么我必须停止信任有限维直觉#

研究生分析学首先让我失去的是直观图像。在此之前，“距离”总是从原点到一个点的箭头长度：勾股定理，三个坐标，搞定。然后有人问我两个函数之间的距离是多少，箭头消失了。

问题在于 $\mathbb{R}^n$ 上的微积分依赖于一种我们从未命名过的结构。欧几里得距离给出了收敛性，收敛性给出了连续性，连续性给出了导数和积分，而这个循环之所以闭合，是因为 $\mathbb{R}^n$ 是完备的：每个柯西序列在该空间内都有极限。去掉这些部分中的任何一个，微积分就会崩溃。因此，当泛函分析要求我在函数空间上做微积分时，我不能简单地导入欧几里得方法。我需要一个能在无穷维中生存的距离定义，以及一个不默认我在 $\mathbb{R}^n$ 中的完备性概念。

一个具体的例子可以说明这一点。取 $$C[0,1]$$ ，即 $$[0,1]$$ 上的连续实值函数。尝试“显然”的欧几里得距离推广： $d(f,g)^2 = \sum_{n=1}^{\infty} (f_n - g_n)^2$ 对于某个基展开。级数可能不收敛。或者选择同样简单的 $d(f,g) = \int_0^1 |f-g|\,dt$ 。这作为度量是有效的，但在这个度量下的柯西序列会逃离 $$C[0,1]$$ ，它们的极限只是可积的，而不是连续的。空间会泄漏。度量空间和完备性的概念正是为了让我能够讨论哪些空间会泄漏，哪些不会。

有限维直觉出错的第二件事更为微妙。在 $\mathbb{R}^n$ 中，所有自然度量都是等价的：一个序列在一个度量下收敛当且仅当它在任何其他度量下也收敛。在无穷维中，这一点彻底失败了。同一个函数序列可以在一个完全合理的度量下收敛，在另一个度量下却发散得非常厉害。因此，当有人说一个序列收敛时，下一个问题是在什么度量下，答案决定了哪些定理适用。整个泛函分析的大厦正是建立在这种区别的尊重之上。

四个公理，精简至骨#

一个度量空间是一对 $$(X, d)$$ ，其中 $$X$$ 是一个集合， $d: X \times X \to \mathbb{R}$ 是一个函数，使得对于每一个 $x, y, z \in X$ ：

$d(x, y) \geq 0$ （非负性）。
$d(x, y) = 0 \iff x = y$ （正定性）。
$$d(x, y) = d(y, x)$$ （对称性）。
$d(x, z) \leq d(x, y) + d(y, z)$ （三角不等式）。

前三条是记账；三角不等式是真正工作的部分。它是唯一连接三个点的公理，并且正是它使“距离”从局部信息传播到全局信息。没有它，开球甚至不会有有用的开集意义：我可以有 $$x$$ 接近 $$y$$ 和 $$y$$ 接近 $$z$$ 但 $$x$$ 任意远离 $$z$$ ，连续性将是一个幻觉。

一个有用的检查是写下 $\mathbb{R}^2$ 上满足公理 1-3 但不满足 4 的函数并观察后果。取 $$d(x,y) = (x_1-y_1)^2 + (x_2-y_2)^2$$ ，即欧几里得距离的平方。它是非负的、确定的和对称的。但对于 $$x=(0,0)$$ , $$y=(1,0)$$ , $$z=(2,0)$$ ，得到 $$d(x,z)=4$$ , $$d(x,y)+d(y,z)=1+1=2$$ ，不等式方向相反。平方破坏了度量性质并产生了上述病理。欧几里得距离中的平方根不只是美学，它在做实际工作。

数值示例#

取 $X = \mathbb{R}^2$ 用欧几里得度量 $d_2(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2}$ 。设 $$x = (0,0)$$ , $$y = (3,0)$$ , $$z = (3,4)$$ 。则 $$d_2(x,y) = 3$$ , $$d_2(y,z) = 4$$ , $$d_2(x,z) = 5$$ 。三角不等式为 $5 \leq 3 + 4 = 7$ ，余量为 2。现在切换到出租车度量 $$d_1(x,y) = |x_1-y_1| + |x_2-y_2|$$ 。同样的三个点： $$d_1(x,y) = 3$$ , $$d_1(y,z) = 4$$ , $$d_1(x,z) = 7$$ 。三角不等式变为 $7 \leq 3 + 4 = 7$ ，饱和，没有余量。原因是几何的：在 $$d_1$$ 下，路径 $x \to y \to z$ 是唯一的最短路径，而在 $$d_2$$ 下，对角线通过 $\sqrt{2}$ 的因子作弊。相同的公理容纳了两者，这正是使用抽象定义的意义所在。

对于上确界度量 $d_\infty(x,y) = \max_i |x_i - y_i|$ ，同样的三个点给出 $d_\infty(x,y) = 3$ , $d_\infty(y,z) = 4$ , $d_\infty(x,z) = 4$ 。三角不等式： $4 \leq 3 + 4 = 7$ 。 $$d_1$$ , $$d_2$$ , $d_\infty$ 在相同三个点上的差异 $$7$$ , $$5$$ , $$4$$ ，量化了每个度量如何“扩展”距离。在 $\mathbb{R}^n$ 中，它们都由 $\sqrt{n}$ 的因子相互限制，因此生成相同的拓扑，但在无穷维中没有这样的限制，拓扑确实发散。

为什么这很重要#

公理故意很弱。它们必须如此，因为我希望插入：

$d_p(x,y) = \big(\sum_{i=1}^n |x_i - y_i|^p\big)^{1/p}$ 在 $\mathbb{R}^n$ 上对于任何 $1 \leq p \leq \infty$ ；
离散度量 $d(x,y) = 1 - \delta_{xy}$ 在任何集合上，其中每两个不同的点恰好相距 $$1$$ ；
上确界度量 $d_\infty(f,g) = \sup_{t} |f(t) - g(t)|$ 在有界函数上；
积分度量 $d_1(f,g) = \int |f - g|$ 在可积函数上；
Hausdorff 度量 $d_H(A, B) = \max\{\sup_{a \in A} d(a, B), \sup_{b \in B} d(b, A)\}$ 在度量空间的闭子集上，这使得紧集的空间成为一个度量空间；
字符串的编辑距离，没有任何代数结构。

从四个公理证明的定理同时适用于所有这些情况。这就是我购买的杠杆。代价是我必须放弃基于坐标的证明，学会只用 $$d$$ 来论证。

收敛与开集#

一个序列 $(x_n) \subset X$ 收敛到 $x \in X$ ，记作 $x_n \to x$ ，如果 $d(x_n, x) \to 0$ 在 $\mathbb{R}$ 中。这个定义在 $\mathbb{R}^n$ 中如此熟悉，以至于掩盖了一个重要点：收敛是度量依赖的。同一个函数序列可以在一个度量下收敛，在另一个度量下发散，这不是病态，恰恰是区分度量的全部原因。

半径为 $$r$$ 的开球围绕 $$x$$ 是 $B(x, r) = \{ y \in X : d(x,y) < r \}$ 。集合 $U \subseteq X$ 是开集，如果 $$U$$ 中的每个点都是包含在 $$U$$ 中的某个开球的中心。这生成了一个拓扑，并且度量中的收敛与该拓扑中的收敛一致，所以我以一个定义的价格获得了拓扑和度量。一个集合是闭集，如果它的补集是开集，等价地说，如果它包含其元素的所有收敛序列的极限。度量让拓扑闭包（包含 $$A$$ 的最小闭集）与序列闭包（ $$A$$ 中序列的极限）一致。

改变的是在 $\mathbb{R}^2$ 中，单位球的形状在 $$d_2$$ 下是一个圆盘，在 $$d_1$$ 下是一个旋转 $$45°$$ 的正方形，在 $d_\infty$ 下是一个轴对齐的正方形。相同的开集集出现（度量在有限维中是等价的，正如将在下一篇文章中证明的那样），但几何“感觉”不同，在无穷维中等价性破裂。单位球的形状携带了空间的凸性和自反性属性，第二篇文章的一个主要主题是不同范数下的单位球的几何形状如何区分 Hilbert 空间（圆形球）和一般的 Banach 空间（可能非常扁平的球）。

度量空间之间的连续映射 $f: (X, d_X) \to (Y, d_Y)$ 是指开集的前像是开集，等价地：对于每一个 $\varepsilon > 0$ 和每一个 $x \in X$ 存在 $\delta > 0$ 使得 $d_X(x, x') < \delta$ 意味着 $d_Y(f(x), f(x')) < \varepsilon$ 。度量意义上的连续性自动是拓扑意义上的连续性，但度量公式买来了一致连续性（ $\delta$ 只依赖于 $\varepsilon$ ，不依赖于 $$x$$ ）和Lipschitz 连续性（ $d_Y(f(x), f(x')) \leq L \cdot d_X(x, x')$ ）。这些都是纯拓扑中缺失的定量概念，它们使我能够证明收敛速度定理。

柯西序列与隐藏假设#

一个序列 $$(x_n)$$ 是柯西序列，如果对于每一个 $\varepsilon > 0$ 存在 $$N$$ 使得对于所有 $m, n \geq N$ 有 $d(x_m, x_n) < \varepsilon$ 。这种让人眼睛发呆的表述隐藏了实际内容：项变得彼此任意接近，而不参考候选极限。

每个收敛序列都是柯西序列（三角不等式，再次： $d(x_m, x_n) \leq d(x_m, x) + d(x, x_n) \to 0$ ）。反之，即每个柯西序列都收敛，是完备度量空间的定义性质。这不是免费的礼物。这是一个必须逐个空间赢得的额外假设。

一个不收敛的柯西序列#

a_1 = 1,\quad a_{n+1} = \tfrac{1}{2}\big(a_n + 2/a_n\big).

这是求 $\sqrt{2}$ 的 Newton 迭代。每个 $$a_n$$ 都是有理数。数值上： $$a_1=1$$ , $$a_2=1.5$$ , $a_3 \approx 1.4167$ , $a_4 \approx 1.4142157$ , $a_5 \approx 1.4142136$ 。差 $|a_{n+1} - a_n|$ 二次缩小，所以序列在明显意义上是柯西序列。但极限 $\sqrt{2}$ 是无理数。序列正在逃离 $\mathbb{Q}$ 。对 $\mathbb{Q}$ 而言，这个柯西序列没有极限，全停。

这正是完备性排除的那种泄漏。实数 $\mathbb{R}$ 正是为填补这种漏洞而构建的：每个实数柯西序列都收敛于一个实数。这不是关于 $\mathbb{R}$ 的定理；而是通过 Dedekind 分割或柯西序列等价类（这是将在下面推广的构造）从 $\mathbb{Q}$ 构建 $\mathbb{R}$ 的定义如下：

f_n(t) = \begin{cases} 0, & 0 \leq t \leq 1/2,\\ n(t - 1/2), & 1/2 < t < 1/2 + 1/n,\\ 1, & 1/2 + 1/n \leq t \leq 1.\end{cases}

每个 $$f_n$$ 是连续的。一个简短的计算给出 $d_1(f_n, f_m) \leq |1/n - 1/m|/2$ ，所以 $$(f_n)$$ 是柯西序列。逐点极限是指示函数 $\mathbb{1}_{[1/2, 1]}$ ，这是不连续的且不在 $$C[0,1]$$ 中。像 $\mathbb{Q}$ 一样，空间 $$C[0,1]$$ 在积分度量下泄漏柯西序列。

为什么这很重要#

完备性是进行基于极限论证的代数许可。想把积分定义为黎曼和的极限吗？你需要极限存在于某个地方。想通过 Picard 迭代解微分方程吗？你需要迭代收敛到你开始的函数空间内的解。想通过算子的差商定义导数吗？你需要结果算子生活在同一个算子空间中。没有完备性，你就有一个锯掉了顶梯级的梯子：你可以永远爬下去，但永远不会到达。

空间的完备性是度量依赖的，而不仅仅是空间依赖的。空间 $$C[0,1]$$ 在上确界度量 $d_\infty(f,g) = \sup_t |f-g|$ 下是完备的（上面的序列不是一致收敛的，因此在 $d_\infty$ 下不是柯西序列），但在 $$d_1$$ 下不完备。问题从来不是“这是完备的吗？”，而是“在那个度量下这是完备的吗？”

度量空间的完备化#

好消息：每个度量空间 $$(X, d)$$ 都有一个完备化 $(\widehat X, \widehat d)$ ，即一个包含 $$X$$ 的等距、稠密副本的完备度量空间。构造是典范的。取 $$X$$ 中的所有柯西序列，声明两个序列等价如果它们逐点距离趋于零，并定义等价类之间的距离为逐点距离的极限。这基本上是 Cantor 从 $\mathbb{Q}$ 构造 $\mathbb{R}$ 的方式。

\widehat d\big([(x_n)], [(y_n)]\big) = \lim_{n \to \infty} d(x_n, y_n).

极限存在是因为 $$(d(x_n, y_n))$$ 是 $\mathbb{R}$ 中的柯西序列（由三角不等式， $|d(x_n, y_n) - d(x_m, y_m)| \leq d(x_n, x_m) + d(y_n, y_m)$ ），并且 $\mathbb{R}$ 是完备的。映射 $X \to \widehat X$ 将 $$x$$ 映射到常数序列 $(x, x, x, \ldots)$ 的类是一个等距嵌入，其像是 $\widehat X$ 中的稠密集。

$\widehat X$ 的完备性需要一个对角线论证。给定一个等价类的柯西序列 $(\widehat{\xi}^{(k)})$ ，为每个选择一个代表 $(\xi^{(k)}_n)$ 。选择足够大的 $$n_k$$ 使得对于所有 $n \geq n_k$ 有 $d(\xi^{(k)}_n, \xi^{(k)}_{n_k}) < 1/k$ ，并形成对角线序列 $y_k = \xi^{(k)}_{n_k}$ 。一些簿记显示 $$(y_k)$$ 在 $$X$$ 中是柯西序列，其在 $\widehat X$ 中的等价类是 $(\widehat{\xi}^{(k)})$ 的极限。

完备化具有一个通用性质：从 $$X$$ 到完备度量空间的任何一致连续映射都可以唯一扩展到 $\widehat X$ 。这是完备化无处不在的原因，从 $$L^p$$ 空间（连续函数在 $$L^p$$ 范数下的完备化）到 $$p$$ -adic 数（ $\mathbb{Q}$ 在 $$p$$ -adic 绝对值 $|p^k m/n|_p = p^{-k}$ 下的完备化，其中 $\gcd(m, p) = \gcd(n, p) = 1$ ）。

示例：在 $$L^1$$ 范数下完备化 $$C[0,1]$$ #

取上面的序列 $$(f_n)$$ 。它在 $$(C[0,1], d_1)$$ 中是柯西序列。它在完备化中的等价类是称为指示函数 $\mathbb{1}_{[1/2,1]}$ ，识别为任何其他逐点几乎处处收敛到它的柯西序列。 $$C[0,1]$$ 在 $$d_1$$ 下的完备化是空间 $$L^1[0,1]$$ ，即 Lebesgue 可积函数模几乎处处相等。不连续的指示函数在那里是一个完全正常的元素。

一个更微妙的点： $$L^1[0,1]$$ 的元素是等价类，而不是函数。你不能问 $$L^1$$ 函数在某一点的值，这个问题甚至没有意义，因为两个等价函数可以在任何指定的测度零集上不同。这是 $$L^1$$ 范数下的完备性的代价：我获得了一个完备的空间，但失去了逐点评估。在第三篇文章中，将看到 Hilbert 空间（特别是 $$L^2$$ ）继承了同样的权衡。

教训：你遇到过的每一个合理的函数空间， $$L^p$$ 空间、Sobolev 空间、Hardy 空间，都是某个更具体空间（连续函数或紧支光滑函数）在某些特定范数下的完备化。完备性不是可选的装饰；它是极限的入场券。

Baire 类别定理#

一旦度量空间完备，一个惊人的刚性结果就开始生效。Baire 类别定理 说：在完备度量空间中，可数个稠密开集的交仍然是稠密的。等价地，完备度量空间不能写成可数个无处稠密集（闭包内部为空的集合）的并。

证明很短，感觉像魔术。假设 $\{U_n\}$ 是一个可数稠密开集族，令 $$V$$ 是任何非空开集。我想证明 $V \cap \bigcap_n U_n \neq \emptyset$ 。由于 $$U_1$$ 是稠密且开的， $V \cap U_1$ 是非空且开的，因此它包含一个闭球 $\overline{B(x_1, r_1)}$ 且 $$r_1 < 1$$ 。由于 $$U_2$$ 是稠密且开的， $B(x_1, r_1) \cap U_2$ 包含一个闭球 $\overline{B(x_2, r_2)}$ 且 $$r_2 < 1/2$$ 。迭代，每次半径减半。中心 $$(x_n)$$ 形成一个柯西序列：对于 $m \geq n$ ， $x_m \in \overline{B(x_n, r_n)}$ ，因此 $d(x_n, x_m) \leq r_n < 2^{-n+1}$ 。完备性给出一个极限点 $$x^*$$ 。根据构造 $x^* \in \overline{B(x_n, r_n)}$ 对于每个 $$n$$ ，因此 $x^* \in V \cap \bigcap_n U_n$ 。完成。

证明在恰好一个地方使用了完备性：得出中心的柯西序列有一个极限。没有完备性，构造可以进行但产生不了什么。这就是 Baire 成为完备性的结果而不是公理的原因。

结论#

如果 $\{T_\alpha\}$ 是从 Banach 空间 $$X$$ 到赋范空间 $$Y$$ 的有界线性算子族，并且对于每个 $$x$$ 有 $\sup_\alpha \|T_\alpha x\| < \infty$ ，那么 $\sup_\alpha \|T_\alpha\| < \infty$ 。逐点有界性意味着一致有界性。证明将 $$X$$ 分成闭集 $F_n = \{ x : \|T_\alpha x\| \leq n \text{ 对所有 } \alpha \}$ ；它们的并是 $$X$$ ；Baire 强制其中一个具有非空内部；那个内部给出了一致有界性。（第六篇文章详细说明。）

$$[0,1]$$ 上在某些点可微的连续函数集可以写成 $(C[0,1], d_\infty)$ 中可数个无处稠密集的并。因此，根据 Baire，这个并不是 $$C[0,1]$$ 的全部，且其补集是稠密的。大多数连续函数，在精确的拓扑意义上，处处不可微。

两者都通过 Baire 应用于算子的像或图来得出。第六篇文章仔细讲解。

为什么这很重要#

Baire 是推动泛函分析中每个“自动”定理的引擎：一致有界原理、开映射定理、闭图定理（都在第六篇文章中）。每个定理都采用“逐点”假设并得出“一致”结论。诀窍总是一样的：将空间划分为由结论失败定义的闭集，观察它们的并是整个空间，并得出其中一个必须具有非空内部。

第二个用途是生成通用对象。 $$[0,1]$$ 上的连续无处可微函数集是 $$C[0,1]$$ 中可数个无处稠密集的补集，因此是稠密的 $G_\delta$ 。所以在精确的拓扑意义上，一个典型的连续函数处处不可微。你实际计算的函数是特例。这是一个应该重置你默认值的定理：光滑函数是例外，而不是规则。

Banach 不动点定理#

d(T x, T y) \leq \lambda \, d(x, y) \quad \text{对于所有 } x, y \in X.

那么 $$T$$ 有一个唯一的不动点 $$x^*$$ ，并且从任意 $x_0 \in X$ 开始，迭代 $x_{n+1} = T x_n$ 满足 $d(x_n, x^*) \leq \lambda^n d(x_0, x^*) \leq \frac{\lambda^n}{1-\lambda} d(x_1, x_0)$ 。

d(x_n, x_m) \leq \sum_{k=n}^{m-1} d(x_k, x_{k+1}) \leq \frac{\lambda^n}{1-\lambda} d(x_1, x_0).

完备性给出一个极限 $$x^*$$ 。 $$T$$ 的连续性（内置在压缩不等式中）给出 $T x^* = \lim T x_n = \lim x_{n+1} = x^*$ 。唯一性通过应用两个不动点 $$x^*, y^*$$ 的压缩不等式得出： $d(x^*, y^*) = d(Tx^*, Ty^*) \leq \lambda d(x^*, y^*)$ ，强制 $$d(x^*, y^*) = 0$$ 因为 $\lambda < 1$ 。每一步都恰好使用一次完备性。

数值示例#

取 $X = [1, 2] \subset \mathbb{R}$ （因为闭合在 $\mathbb{R}$ 中是完备的），并且 $T x = \tfrac{1}{2}(x + 2/x)$ ，即 Newton 迭代法求 $\sqrt{2}$ ，限制在 $$[1,2]$$ 上。一个简短的计算显示 $$|T'(x)| = |1/2 - 1/x^2|$$ ，在 $$x=1$$ 时等于 $$1/2$$ ，在 $$x=2$$ 时等于 $$1/4$$ ，在 $x=\sqrt{2}$ 时等于 $$0$$ 。因此在 $$[1,2]$$ 上， $|T'(x)| \leq 1/2$ ，因此 $$T$$ 是一个压缩映射， $\lambda = 1/2$ 。从 $$x_0 = 1$$ 开始： $$x_1 = 1.5$$ , $x_2 \approx 1.41667$ , $x_3 \approx 1.41422$ , $x_4 \approx 1.41421$ 。唯一的不动点是 $\sqrt{2} \approx 1.41421356$ 。实际上，对于 Newton 法，收敛是二次的，误差每步平方，比定理承诺的线性界快得多，但定理已经保证了有东西可以收敛。关键是完备性保证了极限存在；收敛速率是从特定算子读取的附加结构。

Picard-Lindelöf 作为不动点定理#

(Ty)(t) = y_0 + \int_{t_0}^t F(s, y(s))\,ds.

对于足够小的 $$h$$ ， $$T$$ 在 $$C[t_0, t_0+h]$$ 的上确界度量下是压缩映射， $\lambda = Lh$ 。Banach 定理产生唯一的不动点，也就是 ODE 在 $$[t_0, t_0+h]$$ 上的唯一解。存在性和唯一性都来自 $$C[t_0, t_0+h]$$ 在上确界度量下的完备性。这是固定点理论应用于非平凡经典定理的最干净的应用，也是我将在后续文章中如何解 PDE 的预览。

为什么这很重要#

不动点定理是我解决本系列几乎所有存在性问题的方法。Picard-Lindelöf 定理关于 ODE 解的存在性是一个 $$C[a, b]$$ 中的不动点论证。Banach 空间中的隐函数定理是一个不动点论证。形式为 $$f = g + Kf$$ 的积分方程的解作为 $$T f = g + K f$$ 的不动点存在，只要 $$K$$ 是收缩的。动力系统线性化的 Hartman-Grobman 定理使用了函数空间中的不动点论证。每次我通过迭代解 $$T x = x$$ 并限定收敛速率时，我都在兑现同一个定理。

度量空间中的紧性#

在我转向赋范空间之前，我需要的最后一块拼图是紧性。度量空间 $$X$$ 的子集 $$K$$ 称为紧的，如果每个开覆盖都有一个有限子覆盖。在度量空间中，这最终等价于几个其他条件，这种等价性使得紧性如此强大。

可以证明，对于度量空间 $$X$$ 的子集 $$K$$ ，以下等价：

$$K$$ 的每个开覆盖都有一个有限子覆盖（覆盖紧性）。
$$K$$ 中的每个序列都有一个收敛子序列，其极限在 $$K$$ 中（序列紧性）。
$$K$$ 是完备的且完全有界指的是对于每个 $\varepsilon > 0$ ， $$K$$ 可以被有限多个半径为 $\varepsilon$ 的球覆盖。

蕴含 $(2) \Leftrightarrow (3)$ 说明度量空间中的紧性是“完备性加上一个有限性条件”。在 $\mathbb{R}^n$ 中，完全有界性与有界性相同（Heine-Borel），因此紧集正好是闭有界集。在无穷维中，有界性不再足够： $$C[0,1]$$ 的闭单位球不是紧的。第五篇文章将重新审视这一点并找到正确的替代（通过 Banach-Alaoglu 的弱-* 紧性）。

为什么等价 $(1) \Leftrightarrow (2)$ 需要度量？在一般拓扑空间中，这些是不同的，序列紧性较弱。但在度量空间中，每个点都有一个可数邻域基（半径为 $$1/n$$ 的球），这种可数性允许对角线论证将序列级数据转换为覆盖级数据。度量是使等价成立的原因。

数值示例#

在 $\mathbb{R}$ 中，闭区间 $$[0, 1]$$ 是紧的。用开区间 $$(k/n - 1/n, k/n + 1/n)$$ 覆盖它，其中 $k = 0, 1, \ldots, n$ ，这 $$n+1$$ 个集合覆盖 $$[0,1]$$ 。因此完全有界性是具体的。现在取 $\ell^2$ 中的闭单位球，即平方可和序列的空间。标准基向量 $e_n = (0, \ldots, 0, 1, 0, \ldots)$ 都位于单位球中，且 $\|e_n - e_m\|_2 = \sqrt{2}$ 对于 $n \neq m$ 。没有子序列是柯西序列，因此没有子序列收敛。球是有界的但不是紧的。维度很重要。

一个更引人注目的例子：在带有上确界度量的连续函数空间 $$C[0,1]$$ 中，序列 $f_n(t) = \sin(n\pi t)$ 对于每个 $$n$$ 有 $\|f_n\|_\infty = 1$ ，因此它位于单位球中。但对于 $n \neq m$ 在任何范围内，正弦波异相时 $\|f_n - f_m\|_\infty = 2$ 。球甚至不是序列紧的。F. Riesz 的一个定理使这一点精确：赋范空间的闭单位球是紧的当且仅当空间是有限维的。在无穷维中，紧性的存在需要放弃某些东西：要么换较弱的拓扑（弱紧性，第五篇文章），要么限制到较小的算子类（紧算子，第七篇文章）。

Arzelà-Ascoli#

特别针对 $$C[K]$$ 其中 $$K$$ 是紧度量空间，Arzelà-Ascoli 定理刻画了紧子集：

可以证明，子集 $\mathcal{F} \subseteq C[K]$ 有紧闭包当且仅当 $\mathcal{F}$ 是逐点有界的且等度连续：对于每个 $\varepsilon > 0$ 存在 $\delta > 0$ 使得 $d(s,t) < \delta$ 意味着 $|f(s) - f(t)| < \varepsilon$ 对于每个 $f \in \mathcal{F}$ （相同的 $\delta$ 对所有 $$f$$ 都有效）。

完全有界性是抽象概念；等度连续加逐点有界性是 $$C[K]$$ 的具体形式。该条件通过要求在整个族中的一致控制来排除剧烈振荡（如 $\sin(n\pi t)$ ）。Arzelà-Ascoli 是经典分析中的工作马紧性定理，将看到的许多存在定理，ODE 的解、泛函极小值、逼近方案的极限，都通过它实现。

为什么这很重要#

紧性是“有限”的拓扑替代品。紧集上的连续函数达到最大值和最小值；紧集上的连续函数自动一致连续；紧集的连续像还是紧集。这三句话听上去像是三件不同的事，但若把紧性理解成“有限的拓扑影子”就会明白：有限集上这些性质都是显然的，紧性把它们一并搬到了无穷集上。我在以后的章节里凡是要保证某个极小化问题有解、要从一族函数中抽出收敛子列、要把一致估计从有限格点推广到整个域，都会回头来用这三句话之一。

紧性还有一个我直到读 PDE 的存在性证明才真正理解的功能：把弱信息升级为强信息。Banach-Alaoglu 给我一个弱-* 收敛的子列，但弱收敛在很多场合不够用：非线性项不连续，乘积不能取极限。如果同时知道某个紧嵌入（比如 Rellich-Kondrachov 把 $$H^1$$ 嵌入 $$L^2$$ 是紧的），弱收敛立刻升级为强收敛，非线性项就可以取极限了。这个“弱+紧→强”的两步法是椭圆和抛物 PDE 存在性证明的标准模板，背后全是这一节准备的 $\varepsilon$ -网与子序列论证。

最后一个值得记住的对照：在 $\mathbb{R}^n$ 中我可以靠“闭+有界”识别紧集，但在无穷维这条线索失效。 $\ell^2$ 的闭单位球是闭的、有界的、却不紧。要在无穷维找紧集，要么放弃维数（紧算子的像、有限秩逼近），要么放弃强拓扑（弱-* 紧），要么放弃普通函数空间（限制到等度连续族，即 Arzelà-Ascoli）。这三条路对应后面三章的主题：第七篇的紧算子、第五篇的弱拓扑、本节末尾的 Arzelà-Ascoli。换句话说，全文剩下的内容很大程度上是在回答“无穷维中如何重新获得紧性”。

可分性与稠密性#

进入下一个概念之前我还要补一个拓扑工具。一个度量空间叫可分，如果它有一个可数稠密子集。 $\mathbb{R}$ 可分（有理数稠密）， $$C[0,1]$$ 可分（带有理系数的多项式稠密，即 Weierstrass 逼近）， $\ell^p$ 对 $1 \leq p < \infty$ 都可分（取有限支撑的有理序列）。但 $\ell^\infty$ 这个有界序列空间不可分：给任何可数族的序列，都能用对角线构造一个有界序列与每一个相距 $\geq 1$ ，所以没有可数族能稠密。

可分性决定了我能不能做"构造性逼近"。可分空间里我可以指望写下一组基、然后用有限线性组合任意逼近每个元素；不可分空间里没有任何可数枚举能覆盖全空间。第二篇讨论可分 Banach 空间的 Schauder 基，第三篇讨论可分 Hilbert 空间的正交基，都默认了可分性这个前提。 $L^\infty$ 这种不可分空间确实存在、确实重要，但本系列的核心定理基本都假设可分。

把这一节的概念串起来还有一个干净的等价：度量空间可分 $\Leftrightarrow$ 拓扑有可数基 $\Leftrightarrow$ 每个开覆盖都有可数子覆盖（Lindelöf 性质）。完备度量空间可分 $\Leftrightarrow$ 同胚于 Hilbert 立方 $[0,1]^{\mathbb{N}}$ 的子集。所以"可分"大致是"按某种结构化方式不超过连续统的大小"，也是任何想推广 $\mathbb{R}^n$ 的空间都该具备的正则性。

你真正会遇到的度量目录#

理论是一回事，实际分析里反复出现的度量是另一回事。下面列一个我自己常拿来用的清单，每个度量后面附上让它独特的那一条性质。

离散度量： $$d(x,y) = 0$$ 当 $$x=y$$ ，否则为 $$1$$ 。每个集合既开又闭，唯一收敛的序列是最终常数序列。当合理性检查（我的证明是不是悄悄假设了连通性？）很有用，其他场合几乎没用。
欧几里得 / $\ell^2$ 度量。 $d(x,y) = (\sum (x_i-y_i)^2)^{1/2}$ 。默认选择；唯一一个单位球是圆的 $\ell^p$ 度量；唯一一个让"旋转"作为等距映射有意义的度量。
出租车 / $\ell^1$ 度量。 $d(x,y) = \sum |x_i - y_i|$ 。稀疏优化的天然度量；产生顶点在单位向量上的多边形球。几何上对"对角"移动比 $\ell^2$ 惩罚更重。
上确界 / $\ell^\infty$ / Chebyshev 度量。 $d(x,y) = \max_i |x_i - y_i|$ 。立方体球； $$C[a,b]$$ 上"一致逼近"目标的天然度量；数值分析里 max-norm 误差界用的就是它。
$\{0,1\}^n$ 上的 Hamming 度量。 $d(x,y) = \#\{i : x_i \neq y_i\}$ 。离散、有限值，编码理论和纠错码用。单位球是 Hamming 球， $\ell^1$ 球的离散类比。
字符串编辑距离： 把一个字符串变成另一个所需的最少单字符插入、删除、替换次数。拼写检查和生物信息学用。三角不等式成立，因为编辑的复合还是编辑。
闭有界集上的 Hausdorff 距离。 $d_H(A,B) = \max(\sup_{a\in A} d(a,B), \sup_{b\in B} d(b,A))$ 。两个集合"接近"当且仅当其中一个的每个点都靠近另一个的某个点。集值极限、图像处理、几何测度论的对的度量。
概率测度上的 Wasserstein / 推土机距离。 $W_p(\mu,\nu) = \inf_\pi (\int d(x,y)^p\,d\pi)^{1/p}$ 在以 $\mu,\nu$ 为边缘的耦合 $\pi$ 上取下确界。捕捉把 $\mu$ 变成 $\nu$ 需要搬动多少"质量"。最优传输的核心，与 PDE 和机器学习有深层联系。

这些都不是什么稀奇货色。每一个在某个具体应用里都是天然度量。泛函分析的语言让我能在它们之间切换、同时保持论证的可移植性。比较它们的不等式，比如有限维上 $\ell^p$ 范数之间相差一个依赖维数但对固定 $$n$$ 有限的常数，是这门学科被低估的工具定理。

为什么逐点收敛不是度量拓扑#

诊断性的例子。 $$C[0,1]$$ 上的"逐点收敛"（ $f_n \to f$ 当且仅当 $f_n(t) \to f(t)$ 对每个 $$t$$ 成立）是个很自然的拓扑概念，但它不是任何度量诱导的拓扑。证明很短：任何度量拓扑都是第一可数的（一点的可数邻域基由有理半径的开球给出），但 $$C[0,1]$$ 上的逐点收敛拓扑在 $$0$$ 处没有可数邻域基。所以逐点收敛真的在度量框架之外，任何想用它的定理都得跨进拓扑向量空间这个更一般、更繁琐的世界。

这是泛函分析倾向于度量和赋范设定的结构性原因之一：大多数"自然"拓扑结果都是度量的，少数不是的（逐点收敛、不可分情形下的弱拓扑）就需要第五篇文章里的更重的机器。

完备性直觉的快速测试#

三个快速判断题，校准一下直觉。（答案在下面。）

$$C^1[0,1]$$ 这个连续可微函数空间，配上确界度量 $d_\infty$ ，是完备的。
$\mathbb{Q}^n$ 配欧几里得距离是完备的。
$$[0,1]$$ 上的多项式空间配 $$L^2$$ 内积是完备的。

答案：（1）否。 $$C^1$$ 函数的一致极限不一定是 $$C^1$$ （只是连续），所以 $$C^1$$ 在 $$C[0,1]$$ 中按 $d_\infty$ 不闭。 $$C^1$$ 的正确度量是 $d(f,g) = \|f-g\|_\infty + \|f'-g'\|_\infty$ ，在它下完备。（2）否。 $\mathbb{Q}^n$ 在 $\mathbb{R}^n$ 中稠密但不闭；有理数的柯西序列收敛到无理数。（3）否。多项式在 $$L^2[0,1]$$ 中稠密（Weierstrass）但不闭；其完备化是整个 $$L^2[0,1]$$ 。

这三道题合起来正好编码了一条核心规则：完备性同时依赖空间和度量。在一个本身相当好的空间上选错度量，得到的就是一个不完备的对象，它的完备化可能令人迷惑也可能令人不快。我自己第一次做这三道题全错，本科直觉默认" $$C^1$$ 就是完备的"、“多项式就是完备的”，因为本科里见到的所有具体函数空间都只配过一种范数。无穷维的细致之处全藏在度量选择里。

连通性、道路连通性，以及它们为什么没那么重要#

度量空间叫连通，如果它不能写成两个非空开集的不交并；叫道路连通，如果任何两点都能用连续道路相连。道路连通蕴含连通；反过来不成立（拓扑学家的正弦曲线 $\{(x, \sin(1/x)) : x>0\} \cup (\{0\}\times[-1,1])$ 是标准反例）。

这俩性质在泛函分析里远比在纯拓扑里重要性低，我们关心的大多数空间（Banach 空间、函数空间、Sobolev 空间）都是线性的，所以通过直线段自动道路连通。例外是商空间、射影空间、其他线性结构被破坏的代数构造，在那里连通性才成为非平凡的输入。

连通性真正派上用场的地方是算子谱论。一个有界算子如果谱不连通，就可以通过 Riesz 函数演算分解成"谱片段"，这种分解是紧算子的 Jordan 标准形式分类（第七篇）的引擎。所以谱（ $\mathbb{C}$ 的子集）的连通性才是这个度量空间概念真正出力的场合，哪怕底层 Banach 空间的连通性是自动的。

这也是我把连通性放在这一节末尾、而不是开头郑重介绍的原因：作为度量空间的一般概念它当然存在，但它在我后续要做的事情里基本是后台运行：除非到了谱论那一章，平时我不需要主动调它。

我为什么在意#

我第一次遇到完备性是把它当拓扑题做掉的，归档为"抽象的记账"。直到本科三年级一个数值分析项目，它才不再抽象。当时在写一个 Picard 迭代解 $$y'(t) = -y(t)^2$$ 配 $$y(0)=1$$ 。我把函数空间离散化成不超过 $$5$$ 次的多项式，理由是"光滑解应该住在那里"。前三次迭代看起来完美。到第六步系数爆到 $$10^4$$ 量级，图像剧烈震荡。我花了两天对半切步长、检查求积公式。

导师瞄了一眼发散曲线、再瞄一眼基的截断，说：“你在不完备的子空间里迭代。精确解是 $$1/(1+t)$$ ，是个有理函数。你的多项式空间在极限想去的地方有个洞。迭代试图收敛到一个你的基根本表达不出来的对象，于是它通过让系数爆掉来代偿。” 我换成 Chebyshev 谱离散化（其实就是工作在 $$L^2$$ 完备化里），同一个迭代八步收到机器精度。完备性从此不再是定义，而是一个数值稳定性的硬性要求。空间漏，代码就发散。

这件事让我重新校准了所有数值算法的判断标准。任何"在某子空间里迭代"的方案，本质上都是在度量空间里跑不动点，首先要问"这个子空间在用的范数下完备吗"。不完备就预先知道：如果真解不在子空间里，迭代要么发散要么收敛到错的东西。本系列后面在讨论 PDE 弱解、变分极小化、谱方法时，每一次都会回到这一点：完备性是把"极限存在"从希望变成保证的开关。

展望#

回顾这一章我装好的工具：度量给我距离和收敛、完备性让我能真正算极限、Baire 和 Banach 不动点提供杠杆、紧性把有限维直觉以受控假设的形式找回来。所有这些都没用到 $$X$$ 上的任何代数结构。下一篇我会在 $$X$$ 上加一层与度量相容的向量空间结构，也就是范数，理论立刻收紧：可以谈线性映射、闭子空间、有限维逼近，以及让赋范空间升级为 Banach 空间的那种特别的完备性。度量框架够一般，能容纳编辑距离和离散度量；赋范框架则会专一到足以支撑真正的分析。

最后一个元层面的观察。注意这一篇里每个工具调用完备性的方式都微妙不同。完备化构造里的柯西序列：完备性是结论。Baire：完备性产生非空交集。压缩映射：完备性产生迭代的极限。度量空间紧性（通过条件 $$(3)$$ ）：完备性是定义的一半。完备度量空间这个定义如此凝练，以至于本系列里所有超出本科一年级拓扑的定理几乎都能追溯回它。当你卡在某个泛函分析证明上，问自己"我在哪一步用了完备性？“通常是最有效的解锁问题。

反例：为什么 Banach 不动点的 $\lambda < 1$ 不能弱化#

Banach 不动点定理要求一个一致的压缩常数 $\lambda < 1$ 。一种自然的弱化是只要求严格压缩：对所有 $x \neq y$ 有 $$d(Tx, Ty) < d(x, y)$$ ，而不要求一个全局的 $\lambda$ 。这条弱化让定理彻底失效。

取 $X = [0, \infty)$ 配欧氏度量（完备）。定义 $T(x) = \sqrt{x^2 + 1}$ 。导数 $T'(x) = x/\sqrt{x^2 + 1}$ 对所有 $x \geq 0$ 满足 $0 \leq T'(x) < 1$ 。由中值定理对所有不同的 $$x, y$$ 有 $$|T(x) - T(y)| < |x - y|$$ ，映射严格地缩短每一对距离。然而 $$T$$ 没有不动点：解 $\sqrt{x^2+1} = x$ 给出 $$x^2 + 1 = x^2$$ ，即 $$1 = 0$$ ，无解。

从 $$x_0 = 0$$ 启动迭代： $$x_1 = 1$$ 、 $x_2 = \sqrt{2} \approx 1.414$ 、 $x_3 = \sqrt{3} \approx 1.732$ 、 $$x_4 = 2$$ 、 $x_n = \sqrt{n}$ 。相邻项的距离 $d(x_n, x_{n+1}) = \sqrt{n+1} - \sqrt{n} = 1/(\sqrt{n+1} + \sqrt{n})$ 趋于 $$0$$ ，但序列本身飘到无穷。局部压缩率 $$T'(x)$$ 当 $x \to \infty$ 趋于 $$1$$ ，所以没有一个一致的 $\lambda$ 全局界住缩短率。没有这条一致界，证明里的几何级数估计就发散，柯西估计失效，完备性接不到任何东西。 $\lambda < 1$ 这一条不是技术性方便，它是阻止迭代滑向无穷的刹车。

常见陷阱：把“柯西”当成与度量无关的性质#

新手最常见的误区之一是把"在 $$C[0,1]$$ 中柯西"当成一个序列本身的属性，而忽视背后绑定的度量。同一个序列在两个度量下可以一个柯西、一个不柯西；同一个柯西序列在不同度量下可以一个收敛、一个不收敛。柯西从来都是 $$(X, d)$$ 这一对的属性，不是 $$X$$ 本身的属性。

具体地，取 $f_n(t) = \min(1, nt)$ 在 $$[0,1]$$ 上。每个 $$f_n$$ 都连续，从 $$0$$ 在 $$[0, 1/n]$$ 上线性升到 $$1$$ ，之后保持 $$1$$ 。算 $$L^1$$ 距离：对 $$m > n$$ ， $d_1(f_n, f_m) = \frac{1}{2}(1/n - 1/m)$ 。 $$n=100, m=200$$ 给 $$0.0025$$ ； $$n=1000, m=2000$$ 给 $$0.00025$$ ，按 $$L^1$$ 度量是柯西的。但同一对 $$f_n, f_m$$ 的 sup 距离 $d_\infty(f_n, f_m) = 1$ 始终不动，按 sup 度量根本不柯西。逐点极限是阶梯函数 $\mathbb{1}_{(0,1]}$ ，在 $$C[0,1]$$ 之外。

教训：写"序列收敛"或"序列柯西"之前先指明用哪个度量。完备性、连续性、紧性、所有依赖极限的概念都共享这条规则：它们是 $$(X, d)$$ 这一对的属性，不是 $$X$$ 一个对象的属性。本系列后面所有"完备性"的失败案例（多项式不在 $$C[0,1]$$ 中闭、 $\ell^p_{fin}$ 不在 $\ell^p$ 中闭、 $$C[0,1]$$ 在 $$L^1$$ 度量下不完备）背后都是这同一种把度量隐去的疏忽。

下一步#

度量空间提供了距离、收敛、完备性、紧性这一整套语言，但它还缺一样东西：把两个点相加或乘一个标量的能力。在 $\mathbb{R}^n$ 中我把度量、向量加法、标量乘法当成同一回事；在抽象设定里它们是三件独立的结构，需要分别引入。

下一篇会把向量空间结构和度量结构通过范数绑在一起，得到赋范空间。范数比度量多两条要求，齐次性和平移不变性，而正是这两条让我能在向量层面做线性代数：算子、对偶、级数展开。完备的赋范空间叫 Banach 空间，是泛函分析最常驻的舞台。这一节里关于柯西序列、完备化、紧性的所有讨论都会原封不动地搬过去，只是上面会多出一层线性结构，让本来抽象的距离重新具备“向量的几何”。

下一篇会回答四个具体问题：(1) 怎样定义范数使诱导度量 $d(x, y) = \|x - y\|$ 自动尊重向量加法和标量乘法；(2) 为什么 $\mathbb{R}^n$ 上所有范数等价，证明在维数变成无穷后到底在哪一步失效；(3) 怎样构造对偶空间 $$X^*$$ （连续线性泛函的空间），为什么 $$X^*$$ 总是 Banach 而不管 $$X$$ 是不是；(4) 什么时候能把一个稠密子空间上的有界线性泛函延拓到全空间且范数不变，这正是 Hahn-Banach 定理给的答案，第四篇会展开。读完之后再回来看本篇里 $$L^p$$ 度量、上确界度量、积分度量的关系，会发现它们其实早就是赋范结构的雏形，只是当时还没把"范数"这个名字写出来。

泛函分析（一）：度量空间 —— 距离、收敛与完备性

为什么我必须停止信任有限维直觉#

四个公理，精简至骨#

数值示例#

为什么这很重要#

收敛与开集#

柯西序列与隐藏假设#

一个不收敛的柯西序列#

为什么这很重要#

度量空间的完备化#

示例：在 $$L^1$$ 范数下完备化 $$C[0,1]$$ #

Baire 类别定理#

结论#

为什么这很重要#

Banach 不动点定理#

数值示例#

Picard-Lindelöf 作为不动点定理#

为什么这很重要#

度量空间中的紧性#

数值示例#

Arzelà-Ascoli#

为什么这很重要#

可分性与稠密性#

你真正会遇到的度量目录#

为什么逐点收敛不是度量拓扑#

完备性直觉的快速测试#

连通性、道路连通性，以及它们为什么没那么重要#

我为什么在意#

展望#

反例：为什么 Banach 不动点的 $\lambda < 1$ 不能弱化#

常见陷阱：把“柯西”当成与度量无关的性质#

下一步#

泛函分析 12 篇

读有所得？

为什么我必须停止信任有限维直觉#

四个公理，精简至骨#

数值示例#

为什么这很重要#

收敛与开集#

柯西序列与隐藏假设#

一个不收敛的柯西序列#

为什么这很重要#

度量空间的完备化#

示例：在 $L^1$ 范数下完备化 $C[0,1]$ #

Baire 类别定理#

结论#

为什么这很重要#

Banach 不动点定理#

数值示例#

Picard-Lindelöf 作为不动点定理#

为什么这很重要#

度量空间中的紧性#

数值示例#

Arzelà-Ascoli#

为什么这很重要#

可分性与稠密性#

你真正会遇到的度量目录#

为什么逐点收敛不是度量拓扑#

完备性直觉的快速测试#

连通性、道路连通性，以及它们为什么没那么重要#

我为什么在意#

展望#

反例：为什么 Banach 不动点的 $\lambda < 1$ 不能弱化#

常见陷阱：把“柯西”当成与度量无关的性质#

下一步#

泛函分析 12 篇

读有所得？

继续阅读

微分几何（十二）：纤维丛、特征类与物理学

微分几何（十）：黎曼几何 — 度量、联络和平行移动

微分几何（五）：高斯-博内定理 —— 几何与拓扑的交汇点

示例：在 $$L^1$$ 范数下完备化 $$C[0,1]$$ #