泛函分析（四）：对偶空间与 Hahn-Banach 定理：线性泛函的驯服

为什么要换一种方式看向量#

我刚开始学线性代数时，总是从“向量是什么”这一面去想问题：把它写成坐标列、把它画成箭头、把它扔进矩阵里乘一下。直到读到 Riesz 关于积分方程的论文，我才意识到还有另一面：通过“怎样测它”来理解一个向量。给一个向量 $$x$$ ，我可以问“在某个方向上的投影是多少”“在某个测试函数上的积分是多少”“某个评价泛函给它的值是多少”，每一个回答都是一个标量。如果有足够多的方向、测试函数、评价泛函可以问，那么 $$x$$ 本身就被这些回答完全决定了。

这种“通过泛函测向量”的视角在有限维里看起来多此一举。 $\mathbb{R}^n$ 上的线性泛函就是行向量，对偶空间和原空间只差一个转置，连续性是自动的，所以没什么新东西。但到了无穷维，三件事同时变难：一，连续线性泛函的存在不再自动，必须有一个定理保证它们足够多；二，对偶空间 $$X^*$$ 不再等同于 $$X$$ ，它可能更大、可能更小、可能完全不同；三，对偶配对 $\langle \varphi, x\rangle$ 给出的弱拓扑严格弱于范数拓扑，弱收敛序列可以是范数发散的。这三件事合起来构成了泛函分析下半场的主题。

Hahn-Banach 定理就是“连续线性泛函足够多”的存在性定理。它保证：每个非零向量都被某个泛函看到、每个稠密子空间上的有界泛函都能延拓到全空间、任何两个不相交的凸集都能被超平面分开。这三句话是后续每一章的反复主题，也是本篇要建立的核心工具。

为什么你不能跳过这篇文章#

到目前为止，理论主要讨论的是空间及其元素。本文改变了视角：它询问通过一组测试泛函来“测量”向量 $$x$$ 时，你能对 $$x$$ 说些什么。从“向量”到“向量加上泛函”的转变使 Banach 空间成为有限维线性代数的有效类比。在有限维中，每个线性泛函都是连续的，对偶空间与原空间维度相同，因此无需证明。在无限维中，连续性是一个真正的约束，而存在足够的连续泛函来区分点或扩展部分数据并不明显。Hahn-Banach 定理正是保证这一点的结果，它使得泛函分析成为可能。

一个实际工作的分析师使用 Hahn-Banach 的方式就像一个实际工作的代数学家使用 Zorn 引理一样：无形地，每天几十次，从未从头开始证明。本文的目的是清晰地产生这个定理，并检查它的几条标准结果：几何形式、支撑超平面的存在性、典范嵌入到二次对偶。第 5 篇文章将利用弱拓扑来让对偶发挥作用。

对偶空间#

\|\varphi\|_{X^*} = \sup_{\|x\| \leq 1} |\varphi(x)|.

在这个范数下， $$X^*$$ 是 Banach 空间，即使 $$X$$ 本身不是（泛函的 Cauchy 序列逐点 Cauchy，极限定义了一个线性泛函，且有界性通过一致 Cauchy 性传递给极限）。

因此，对偶空间自动是 Banach 空间，无论原始空间是否完备。这是对偶构造如此受欢迎的一个结构上的优点：形成对偶会将不完备的赋范空间升级为完备的空间。

经典对偶#

你应该知道的一些对偶识别：

$(\ell^p)^* = \ell^q$ 对于 $1 < p < \infty$ ， $$1/p + 1/q = 1$$ ，通过 $y \mapsto \varphi_y(x) = \sum y_n x_n$ 。
$(\ell^1)^* = \ell^\infty$ ，同样的公式。
$(\ell^\infty)^* \supsetneq \ell^1$ ： $\ell^\infty$ 的对偶包含 $\mathbb{N}$ 上的有限可加测度，严格大于 $\ell^1$ （Banach 极限是经典的非- $\ell^1$ 例子）。
$(c_0)^* = \ell^1$ 。
$(L^p[\Omega])^* = L^q[\Omega]$ 对于 $1 \leq p < \infty$ ， $$1/p + 1/q = 1$$ （约定 $1/\infty = 0$ ，所以 $(L^1)^* = L^\infty$ ）。
$$(C[K])^* = M[K]$$ ，紧度量空间 $$K$$ 上的有限符号 Borel 测度空间（Riesz-Markov 定理）。
$(\mathcal{H})^* = \mathcal{H}$ 对于 Hilbert 空间，由 Riesz（第 3 篇文章）。

这一列表里有几条值得停下来想一想。 $(\ell^p)^* = \ell^q$ 当 $$p$$ 和 $$q$$ 互为共轭指数时干脆得令人震惊：一个空间的对偶恰好是它的“配对”空间。但 $(\ell^\infty)^* \supsetneq \ell^1$ 这一条不对称。同样的 Hölder 不等式让 $\ell^1$ 嵌入 $(\ell^\infty)^*$ ，但反向嵌入失败： $\ell^\infty$ 上有些泛函不来自 $\ell^1$ ，最经典的就是 Banach 极限。这种对称性的破坏正是 $\ell^1$ 和 $\ell^\infty$ 不自反的来源；下文会把自反性单独拉出来讲。

$$(C[K])^* = M[K]$$ （Riesz-Markov 表示）也值得记住：紧空间上连续函数的对偶是测度空间。这一条让概率论与泛函分析直接对接：分布收敛就是 $$C(K)^*$$ 中的弱-* 收敛，第五篇里专门讨论过。Hilbert 空间的“自对偶” $\mathcal{H}^* = \mathcal{H}$ 是 Riesz 的另一个礼物：在 Hilbert 空间里，向量和泛函通过内积一一对应，对偶问题退化成内积问题。这种简化让 Hilbert 空间成为分析中最舒服的设定。

模式 $(\ell^p)^* = \ell^q$ 如此干净，几乎看起来像是巧合，但它是由 Hölder 不等式强制的。 $\ell^p$ 和 $\ell^q$ 之间的配对 $\langle x, y \rangle = \sum x_n y_n$ 有界， $|\langle x, y \rangle| \leq \|x\|_p \|y\|_q$ ，且 Hölder 不等式在适当选择的向量上是尖锐的。这个论证逐字推广到任何测度空间上的 $$L^p$$ 。

数值示例#

在 $\ell^2$ 中，取 $y = (1, 1/2, 1/3, \ldots, 1/n, 0, 0, \ldots)$ 对于 $$n = 4$$ ，所以 $y = (1, 1/2, 1/3, 1/4, 0, \ldots)$ 。对偶泛函 $\varphi_y(x) = \sum y_k x_k$ 的范数 $\|\varphi_y\|_{(\ell^2)^*} = \|y\|_2 = \sqrt{1 + 1/4 + 1/9 + 1/16} = \sqrt{205/144} \approx 1.193$ 。根据 Cauchy-Schwarz 不等式，这个范数在 $x = y / \|y\|_2$ 处达到，这给出 $\varphi_y(x) = \|y\|_2$ 。对偶是紧密的，Cauchy-Schwarz 在此饱和。

Hahn-Banach 定理（解析形式）#

写出形式陈述前先讲一下这个定理的“魔术”在哪里。我有一个子空间 $$M$$ 上定义好的有界线性泛函 $\varphi_0$ ，比如 $$M$$ 可能就是一根直线 $\mathbb{R} x_0$ ，泛函是“沿这根直线的坐标”。我想把这个泛函扩展到整个空间 $$X$$ 上，同时保持原来的范数估计。听起来这是平凡的，任意拓扑学家都会建议“线性扩展然后调整”，麻烦在于无穷维空间的“维度”太大，子空间的“余补”不能像有限维那样简单选基。

Hahn-Banach 解决这个问题靠两步：先用次线性泛函 $$p$$ 控制每一步扩展（保证不会把范数搞大），然后用 Zorn 引理把单步扩展拼成全空间扩展。Zorn 引理这一步在选择公理下是必需的。把 Hahn-Banach 与选择公理绑在一起的不是定理本身的“数学难度”，而是无穷维空间的“可数无穷多个方向”都需要被同时处理。可分情形可以避开 Zorn，用稠密子集逐步扩展即可；一般情形则必须借助选择公理。

可以证明，设 $$X$$ 是实向量空间， $p: X \to \mathbb{R}$ 是次线性泛函（ $p(x + y) \leq p(x) + p(y)$ 且 $p(\alpha x) = \alpha p(x)$ 对于 $\alpha \geq 0$ ）， $\varphi_0: M \to \mathbb{R}$ 是子空间 $M \subseteq X$ 上的线性泛函，且 $\varphi_0(x) \leq p(x)$ 对所有 $x \in M$ 成立。则 $\varphi_0$ 可以延拓为 $$X$$ 上的线性泛函 $\varphi: X \to \mathbb{R}$ ，满足 $\varphi(x) \leq p(x)$ 对所有 $x \in X$ 成立。

最常引用的版本：赋范空间的子空间上的任何有界线性泛函可以延拓到整个空间而不增加其范数。这只是半范数情况下的 $p(x) = \|\varphi_0\|_M \cdot \|x\|$ 。

证明概要#

步骤 1（单步延拓）。给定 $$M$$ 上的 $\varphi_0$ 和 $x_0 \notin M$ ，设 $M' = M + \mathbb{R} x_0$ 。任何延拓都由值 $c = \varphi(x_0)$ 确定。约束 $\varphi(m + tx_0) \leq p(m + tx_0)$ 对所有 $m \in M$ 和 $t \in \mathbb{R}$ 成立（经过一些 $$t > 0, t < 0$$ 情况的操作）变成两个不等式 $A \leq c \leq B$ ，其中 $A = \sup_{m \in M} (\varphi_0(m) - p(m - x_0))$ 和 $B = \inf_{m \in M} (p(m + x_0) - \varphi_0(m))$ 。次线性性保证 $A \leq B$ （一个计算），因此存在有效的 $c \in [A, B]$ 。

步骤 2（Zorn 引理）。按域和图的包含关系对部分延拓进行排序，取一个最大的。最大延拓必须定义在整个 $$X$$ 上，否则步骤 1 会产生一个更大的延拓，与最大性矛盾。 $\square$

一般情况下，Zorn 引理的使用是不可避免的；该定理在没有选择公理的 ZF 中失败。然而，对于可分赋范空间，Hahn-Banach 可以在没有选择的情况下证明：选取一个可数稠密子集并逐方向延拓，仅使用步骤 1 的可数步版本。这种细微差别在实践中很少重要。

为什么这很重要#

Hahn-Banach 让我做三件本来不可能的事情。（i）延拓线性泛函从子空间到整个空间，任何时候我在子集上有数据、又想得到一个全局对象时都要这样做。（ii）分离点：存在一个连续泛函 $\varphi$ 使得 $\varphi(x_0) = \|x_0\|$ 且 $\|\varphi\| = 1$ ，通过延拓 $\mathbb{R} x_0$ 上的泛函 $\alpha x_0 \mapsto \alpha \|x_0\|$ 。因此 $$X^*$$ 有足够的泛函来检测 $$X$$ 中的每个非零元素。（iii）计算范数 作为 $\|x\| = \sup_{\|\varphi\| \leq 1} |\varphi(x)|$ ，即对偶范数的对偶范数，恢复原始范数。

几何 Hahn-Banach：凸集的分离#

“几何”或“分离”形式的 Hahn-Banach 在优化和概率中更有用。

解析形式的 Hahn-Banach 处理“延拓泛函”，几何形式处理“分离凸集”。这两件事看似不同，实际上是同一定理的两面：每个延拓都对应一个超平面，每个超平面都对应一个延拓。具体的对偶关系是：分离两个不相交凸集 $$A$$ 、 $$B$$ 的超平面的方程 $\varphi(x) = c$ 中， $\varphi$ 这个泛函就是某个延拓的结果，它在 $$A$$ 上有界，再把这个有界性延拓到全空间。

几何形式更直接对接到优化和凸分析。线性规划的对偶定理、博弈论的极小极大定理、随机分析的鞅表示定理、统计学的 Neyman-Pearson 引理，都是某种“分离凸集”的应用。当我看到“可行集与目标集不相交”这种命题时，立刻知道几何 Hahn-Banach 给我一个超平面，它给我一个 Lagrange 乘子或对偶变量，再用这个对偶变量做对偶规划。这是凸优化课程里一切对偶定理的根。

可以证明，设 $$X$$ 是实赋范空间， $A, B \subseteq X$ 是不相交的非空凸集。（i）如果 $$A$$ 是开集，则存在 $\varphi \in X^*$ 和 $\alpha \in \mathbb{R}$ 使得 $\varphi(a) < \alpha \leq \varphi(b)$ 对所有 $a \in A$ ， $b \in B$ 成立。（ii）如果 $$A$$ 是闭集且 $$B$$ 是紧集，则存在 $\varphi \in X^*$ 和 $\alpha < \beta$ 使得 $\varphi(a) \leq \alpha < \beta \leq \varphi(b)$ 对所有 $a \in A$ ， $b \in B$ 成立，即严格分离。

换句话说：任何两个不相交的凸集都可以被一个超平面分离，如果其中一个集合是闭集且另一个是紧集，则可以严格分离（具体来说，由一个板条分离）。

证明概要#

使用包含 $$0$$ 的开凸集 $$A$$ 的 Minkowski 泛函 $p_A(x) = \inf\{t > 0 : x \in tA\}$ （如果不是，平移）。 $$p_A$$ 是次线性的，且 $p_A(x) \leq 1$ 当且仅当 $x \in A$ （开球测试）。取任意 $b \in B$ 并考虑直线 $\mathbb{R}(b - a_0)$ 对于 $a_0 \in A$ ；在线上定义一个线性泛函，使其在 $$b - a_0$$ 处为 $$1$$ 并由 $$p_A$$ 限制。Hahn-Banach 将其延拓到整个 $$X$$ 。延拓后的泛函将 $$A$$ 与 $\{b\}$ 分离，若有需要，再用 $$A$$ 与闭包之间的间隙加上紧性细化，便给出严格分离。 $\square$

为什么这很重要#

几何形式是优化中每个对偶论证的基础。凸规划依赖于这样一个事实：不可行系统 $A x = b, x \geq 0$ 对应于一个分离超平面，而超平面给出了不可行性的“Farkas 类型”证书。博弈论中的极小极大定理是关于分离凸集的定理（游戏的鞍点是两个凸包的交点）。Banach 空间中紧凸集的 Choquet 积分表示，即紧凸集的每个点都是极端点上某个概率测度的积分，是对分离的深刻应用。

支撑超平面#

几何 Hahn-Banach 的一个特殊情况：Banach 空间 $$X$$ 中的闭凸集 $$C$$ 在每个边界点都有一个支撑超平面。也就是说，对于每个 $x_0 \in \partial C$ ，存在 $\varphi \in X^*$ 使得 $\varphi(x_0) = \sup_{c \in C} \varphi(c)$ 。

在凸分析的语言中， $\varphi$ 属于 $$C$$ 在 $$x_0$$ 处指示函数的次微分，它是记录该点所有“支撑方向”的对偶对象。

数值示例#

取 $C = \{(x_1, x_2) \in \mathbb{R}^2 : x_1^2 + x_2^2 \leq 1\}$ ，单位圆盘。在边界点 $(\cos\theta, \sin\theta)$ 处，唯一的支撑超平面是切线，法向量为 $\varphi(x) = \cos\theta \cdot x_1 + \sin\theta \cdot x_2$ 。因此每个边界点的支撑超平面唯一，圆盘是光滑的。

现在取 $C = \{ x : |x_1| + |x_2| \leq 1 \}$ ，单位 $\ell^1$ 球。在顶点如 $$(1, 0)$$ 处，无穷多个支撑超平面存在：任何 $\varphi(x) = a x_1 + b x_2$ 且 $$a = 1$$ 和 $|b| \leq 1$ 都在 $$(1,0)$$ 处支撑 $$C$$ ，因为 $\sup_{c \in C}(c_1 + b c_2) = 1$ 对于 $|b| \leq 1$ （在 $$(1,0)$$ 处达到）。因此顶点的支撑超平面不唯一，角上有一整个“扇形”的支撑。

这种非唯一性正是 $\ell^1$ 最小化可以有非唯一解的几何原因；LASSO 回归和压缩感知文献花费大量精力诊断何时解是唯一的。

二次对偶与自反性#

对偶空间 $$X^*$$ 本身是 Banach 空间，因此它有自己的对偶 $X^{**} = (X^*)^*$ ，称为二次对偶。它有一个典范嵌入 $J: X \to X^{**}$ 定义为 $(Jx)(\varphi) = \varphi(x)$ 对于 $\varphi \in X^*$ 。这个嵌入是良定义的（线性映射 $\varphi \mapsto \varphi(x)$ 有界且范数 $\leq \|x\|$ ），线性的，且等距；等距性用 Hahn-Banach 找到一个 $\varphi$ 使得 $|\varphi(x)| = \|x\|$ 且 $\|\varphi\| = 1$ 。

二次对偶是一个让我反复重新理解的概念。第一次接触它时我以为它没什么用：既然已经有 $$X$$ ，干嘛还要研究 $X^{**}$ ？但很快我意识到 $$X$$ 和 $X^{**}$ 之间的关系揭示了 $$X$$ 的“纵深结构”。如果 $X = X^{**}$ （自反），那么 $$X$$ 在某种意义上“看清了它的全部对偶信息”，每个 $X^{**}$ 元素都来自原来的 $$X$$ 。如果 $X \subsetneq X^{**}$ （非自反），那么对偶迭代到第二层时就溢出了原空间。典型例子是 $c_0 \subset \ell^1^* = (\ell^\infty)^* \neq c_0$ ， $c_0^{**} = \ell^\infty \supsetneq c_0$ 。这种溢出反映了 $$c_0$$ 在拓扑上的“缺口”：它的单位球不弱紧。

自反性这个概念的真正威力在于它等价于“弱紧性”。Eberlein-Smulian 和 Kakutani 定理告诉我， $$X$$ 自反当且仅当它的闭单位球弱紧。这就把抽象的“ $X^{**}=X$ ”翻译成了可以直接用来做 PDE 存在性证明的紧性。 $$L^p$$ （ $1<p<\infty$ ）自反，所以变分问题在 $$L^p$$ 中有最小化序列的弱收敛子列； $$L^1$$ 不自反，同样的论证失败，质量可以集中成 Dirac 测度，需要切换到 $$BV$$ 或测度空间。这条等价让“自反性”这个看似纯抽象的代数性质变成了 PDE 存在性证明的必要前提。

Banach 空间是自反的，如果 $$J$$ 是满射，即 $X = X^{**}$ 典范地。自反性是一个强性质；它在取闭子空间、商空间和有限积时保持，并且它蕴含许多紧性和正则性结果。

示例#

所有有限维空间都是自反的（显然）。
Hilbert 空间是自反的： $\mathcal{H}^* = \mathcal{H}$ 由 Riesz 得出，所以 $\mathcal{H}^{**} = \mathcal{H}^* = \mathcal{H}$ 。
$\ell^p$ 和 $$L^p$$ 对于 $1 < p < \infty$ 是自反的： $$((L^p)^*)^* = (L^q)^* = L^p$$ 。
$\ell^1, L^1, c_0, C[K]$ 不是自反的。 $$c_0$$ 的二次对偶是 $\ell^\infty$ ，且 $\ell^\infty$ 严格大于 $$c_0$$ 。

为什么自反性重要#

自反性等价于闭单位球的弱紧性，这是 Eberlein 和 Šmulian 的一个重要定理（第 5 篇文章中会有提示）。因此在自反空间中，每个有界序列都有一个弱收敛子序列，这是仅次于范数紧性的最强紧性。这就是为什么在 $$L^p$$ 中 $1 < p < \infty$ 的最小化论证有效：取一个最小化序列，提取一个弱收敛子序列（通过自反性），使用范数的下半连续性传递到极限。在 $$L^1$$ 或 $L^\infty$ 中同样的方法失败是因为非自反性，需要更精细的论证（测度紧性， $$C_0$$ 对偶中的弱-* 极限）。

Goldstine 与 $$X$$ 在 $X^{**}$ 中的稠密性#

二次对偶理论里有一个细节值得单拎出来。典范嵌入 $J: X \to X^{**}$ 是等距映射，所以 $$J(X)$$ 是 $X^{**}$ 的闭子空间（等距像必闭）。当 $$X$$ 不自反时 $J(X) \subsetneq X^{**}$ ，那么 $X^{**}$ 比 $$X$$ “多出"了多少？

可以证明（Goldstine 定理）： $$J(X)$$ 在 $X^{**}$ 的弱-* 拓扑下稠密；更精确地说，单位球 $$J(B_X)$$ 在 $X^{**}$ 单位球的弱-* 拓扑下稠密。

所以在弱-* 拓扑下， $X^{**}$ 的每个元素都能被 $$X$$ 中的元素逼近：原空间虽然小，仍然是其二次对偶的"弱-* 拓扑稠密"子集。这正是非自反设定下弱-* 收敛能当紧性主力的原因： $X^{**}$ 中的有界序列（按 $X^{**} = (X^*)^*$ 的 Banach-Alaoglu）有弱-* 收敛子序列，极限是 $$X$$ 中元素的弱-* 极限，它可能落在 $$J(X)$$ 之外，但能从 $$J(X)$$ 逼近。

具体感受一下： $c_0 \subsetneq c_0^{**} = \ell^\infty$ 。 $\ell^\infty$ 中的常数序列 $(1, 1, 1, \ldots)$ 不在 $$c_0$$ 里（不趋于零）。Goldstine 说我可以用 $$c_0$$ 中的元素弱-* 逼近它：比如取 $x_n = (1, 1, \ldots, 1, 0, 0, \ldots)$ 前 $$n$$ 项为 $$1$$ ，对任何 $\varphi \in \ell^1 = c_0^*$ 有 $\varphi(x_n) = \sum_{k=1}^n \varphi_k \to \sum \varphi_k = \varphi((1,1,\ldots))$ 。范数上 $$x_n$$ 不收敛到 $(1,1,\ldots)$ （差值范数恒为 $$1$$ ），但每个对偶泛函上都收敛，这就是弱-* 收敛。

Goldstine 的证明本身又是 Hahn-Banach 论证：若 $$J(B_X)$$ 在 $B_{X^{**}}$ 中弱-* 不稠密，那存在弱-* 连续泛函把它们分开，而 $X^{**}$ 上的弱-* 连续泛函恰好就是 $$X^*$$ 中的元素。这种分离会和” $$J(B_X)$$ 在每个 $$X^*$$ 方向上都有支撑泛函"这一事实矛盾。把这一节连同 Banach-Alaoglu（第五篇）合起来读，就能理解为什么变分问题在非自反空间里仍能挽救——退到 $X^{**}$ 里取弱-* 极限，再用 Goldstine 把它逼回 $$X$$ 。

有界算子的伴随（对偶）#

给定 Banach 空间之间的一个有界线性算子 $T: X \to Y$ ，伴随（或对偶）算子 $T^*: Y^* \to X^*$ 定义为 $T^*\varphi = \varphi \circ T$ ，即 $(T^*\varphi)(x) = \varphi(T x)$ 。伴随是有界的，且 $\|T^*\| = \|T\|$ ：上界是直接的，匹配的下界用 Hahn-Banach 找到几乎达到 $$T x$$ 范数的泛函。

\ker(T^*) = \mathrm{Range}(T)^\perp,\quad \overline{\mathrm{Range}(T)} = \ker(T^*)^\perp,

其中 $\perp$ 在适当的对偶或预对偶中取消没子。闭值域定理给出更细的关系： $$T$$ 的值域在 $$Y$$ 中闭当且仅当 $$T^*$$ 的值域在 $$X^*$$ 中闭，且在这种情况下两者等于对方核的消没子。

数值示例#

取 $T: \ell^1 \to \ell^\infty$ ， $T x = (x_1, x_1 + x_2, x_1 + x_2 + x_3, \ldots)$ ，即序列的部分和，视为有界算子。泛函 $\varphi_n \in (\ell^\infty)^*$ 由 $\varphi_n(y) = y_n$ 给出，范数为 $$1$$ 。则 $T^* \varphi_n \in (\ell^1)^* = \ell^\infty$ 是泛函 $x \mapsto x_1 + \cdots + x_n$ ，由有界序列 $(1, 1, \ldots, 1, 0, 0, \ldots)$ 表示，前 $$n$$ 个为 $$1$$ 。当 $n \to \infty$ 时， $\|T^*\varphi_n\|_{\ell^\infty} = 1$ 保持有界，说明 $\|T^*\| \leq \|T\|$ ；事实上 $\|T\| = \|T^*\| = 1$ （因为 $\ell^1$ -范数最多为 $$1$$ 的序列的部分和的 $\ell^\infty$ -范数最多为 $$1$$ ）。

消没子与预消没子#

A^\perp = \{ \varphi \in X^* : \varphi(a) = 0 \text{ 对所有 } a \in A \}.

^\perp B = \{ x \in X : \varphi(x) = 0 \text{ 对所有 } \varphi \in B \}

是 $$X$$ 的闭子空间。这两个操作满足 $^\perp(A^\perp) = \overline{\mathrm{span}(A)}$ 对于 $A \subseteq X$ ，由 Hahn-Banach 得出： $$X$$ 中不在 $\overline{\mathrm{span}(A)}$ 中的任何元素可以通过消失在 $$A$$ 上的连续泛函与 $\mathrm{span}(A)$ 分离。

子空间与其消没子之间的这种对偶性是每种“Fredholm 替代”类型定理的基础。经典陈述： $$T x = y$$ 有解当且仅当 $\varphi(y) = 0$ 对于每个 $\varphi$ 使得 $T^* \varphi = 0$ 。对于闭值域算子（例如 Fredholm 算子，第 7 篇文章），特征是精确且可计算的。

为什么这很重要#

消没子对偶把“在哪里可以解 $$T x = y$$ ？”化为“ $\ker(T^*)$ 的元素是什么？”，后者是一个关于不同空间上不同算子的问题。在 PDE 中，这是日常的：非齐次方程 $$L u = f$$ 有解当且仅当 $$f$$ 与 $\ker(L^*)$ 正交，其中 $$L^*$$ 是微分算子的形式伴随（分部积分中的边界项给出正确的伴随概念）。这有时被称为“可解条件”或“相容条件”。

商对偶与第一同构定理#

(X/M)^* \cong M^\perp.

同构很具体： $$X/M$$ 上的泛函就是 $$X$$ 上在 $$M$$ 上消失的泛函。范数也一致：左边的商范数等于右边零化子里这个泛函的算子范数。

M^* \cong X^* / M^\perp.

这一条更微妙、用到 Hahn-Banach： $$M$$ 上的每个泛函都能（非唯一地）延拓到 $$X$$ 上，两个延拓相差 $M^\perp$ 的元素，所以延拓在模 $M^\perp$ 之后唯一。范数一致是因为 Hahn-Banach 不增加范数。

这两条对偶恒等式是 Banach 空间版的"第一同构定理"：子空间和商互为对偶，对应的短正合列 “ $0 \to M \to X \to X/M \to 0$ ” 对偶成 “ $0 \to M^\perp \to X^* \to M^* \to 0$ "。

数值示例#

取 $X = \mathbb{R}^3$ 配 $\ell^2$ 范数， $M = \mathrm{span}\{(1, 1, 1)\}$ 。商空间 $$X/M$$ 由等价类 $$[x] = x + M$$ 构成，商范数 $\|[x]\|_{X/M} = \inf_{m\in M} \|x-m\|_2$ 是 $$x$$ 到直线 $$t(1,1,1)$$ 的欧氏距离。对 $$x = (3, 0, 0)$$ ：到 $$M$$ 的正交投影是 $$(1, 1, 1)$$ ，距离 $\|(2, -1, -1)\|_2 = \sqrt{6} \approx 2.449$ 。所以 $\|[(3,0,0)]\|_{X/M} = \sqrt{6}$ 。

定义 $$X/M$$ 上的泛函 $\psi([x]) = x_1 - x_2$ ，良定义因为 $$(x_1+t) - (x_2+t) = x_1-x_2$$ 与 $$t$$ 无关。按商对偶，它的范数等于在 $$X$$ 上消失于 $$M$$ 的某个延拓的范数。 $\Phi(x) = x_1 - x_2$ 已经在 $$(1,1,1)$$ 上为零，所以 $\Phi \in M^\perp$ 。它在 $X^* \cong \mathbb{R}^3$ 中的范数是 $\|(1, -1, 0)\|_2 = \sqrt{2} \approx 1.414$ 。检验：在 $$x = (1, -1, 0)$$ 处 $\|[x]\| = \sqrt{2}$ 而 $|\psi([x])| = 2$ ，比值 $\sqrt{2}$ ，达到上确界。同构 $(X/M)^* \cong M^\perp$ 严格保范数。

算子论里的应用持续不断。要分析 $T: X \to Y$ 的值域，就把值域的闭包识别为 $\ker(T^*)^\perp$ ；要分析余核 $Y / \overline{\mathrm{Range}(T)}$ ，就用商对偶把它认成 $\ker(T^*)$ 。第七篇关于紧算子 $T - \lambda I$ 的 Fredholm 替代正是这条对偶在特定算子族上的应用。

$$L^p$$ 对偶详细说明#

$1 \leq p < \infty$ 、 $$1/p + 1/q = 1$$ 时的对偶 $$(L^p)^* = L^q$$ 值得完整陈述一遍。

$$L^p$$ 对偶的细节是泛函分析中最常被引用的具体结果之一。它给出一个完全干净的对应：每个 $g \in L^q$ 通过 $f \mapsto \int fg$ 给出一个 $$L^p$$ 上的有界泛函，每个有界泛函都来自这种形式，并且 $$L^q$$ 范数和对偶范数一致。这种“对偶一对一”让我可以在 $$L^p$$ 和 $$L^q$$ 之间自由切换：研究 $$L^p$$ 中的弱收敛就等价于研究 $$L^q$$ 中所有元素的逐个收敛。

但 $p = \infty$ 这一边断开了。 $(L^\infty)^* \supsetneq L^1$ ，即 $L^\infty$ 的对偶严格大于 $$L^1$$ ，包含了一些“有限可加但不可数可加”的奇异测度。这个非对称性让 $L^\infty$ 不自反、让 Banach-Alaoglu 在 $$L^1$$ 上失效（要在 $L^\infty$ 的对偶里做弱-* 紧）、让变分问题在 $$L^1$$ 中没有最小化序列的弱收敛子列。这一连串问题让 $$L^1$$ 在 PDE 应用里特别麻烦：比如最小化 $\int|\nabla u|$ （全变差）必须切换到 $$BV$$ 空间，因为 $W^{1,1}$ 不自反不够用。

可以证明，对于每个 $g \in L^q$ ，泛函 $\varphi_g(f) = \int f g$ 属于 $$(L^p)^*$$ ，且 $\|\varphi_g\|_{(L^p)^*} = \|g\|_{L^q}$ 。映射 $g \mapsto \varphi_g$ 是 $L^q \to (L^p)^*$ 的等距同构。

Hölder 不等式给出 $\|\varphi_g\| \leq \|g\|_{L^q}$ 。反向不等式使用显式的 $$f$$ 选择：取 $f = |g|^{q-1} \mathrm{sgn}(g) / \|g\|_{L^q}^{q/p}$ ，标准化使得 $\|f\|_{L^p} = 1$ 。则 $\varphi_g(f) = \|g\|_{L^q}$ ，展示等式。

对于满射性，给定 $\varphi \in (L^p)^*$ ，需要构造 $g \in L^q$ 来表示它。Radon-Nikodym 定理提供 $$g$$ 作为从 $\varphi$ 构建的绝对连续测度的密度。 $$p = 1$$ 的情况需要测度的 $\sigma$ -有限性；否则对偶可能失败。

$p = \infty$ 的情况打破了模式。 $(L^\infty)^*$ 严格大于 $$L^1$$ ，它包含不是测度的有限可加集函数。这是 $L^\infty$ 的一个结构性麻烦，实际后果是 $L^\infty$ 不是自反的，许多紧性论证在那里失败。

数值示例#

在 $$L^p[0,1]$$ 中，取 $$f(t) = t$$ 并考虑泛函 $\varphi(g) = \int_0^1 g(t) f(t)\,dt = \int_0^1 t \, g(t)\,dt$ 作用于 $g \in L^p$ （因此 $$f$$ 在对偶中扮演 $$g$$ 的角色，但符号交换—— $\varphi \in (L^p)^*$ 由 $f \in L^q$ 确定）。对于 $$p = 2$$ ， $$q = 2$$ ， $\|\varphi\|_{(L^2)^*} = \|f\|_{L^2} = \big(\int_0^1 t^2\,dt\big)^{1/2} = 1/\sqrt{3} \approx 0.577$ 。合理性检查：由 Cauchy-Schwarz， $|\varphi(g)| \leq \|g\|_{L^2} \cdot 1/\sqrt{3}$ 对于 $\|g\|_{L^2} = 1$ 。在 $g(t) = t \sqrt{3}$ 处等号成立，其 $$L^2$$ 范数为 $$1$$ 且 $\varphi(g) = \sqrt{3} \int_0^1 t^2\,dt = 1/\sqrt{3}$ 。对偶是紧密的。

Hahn-Banach 的微妙应用：Banach 极限#

Hahn-Banach 的一个经典且反直觉的应用：存在一个有界线性泛函 $L: \ell^\infty(\mathbb{N}) \to \mathbb{R}$ ，称为Banach 极限，它在收敛序列的子空间上扩展 $\lim$ ，且 $\|L\| = 1$ ，且平移不变： $L((x_2, x_3, \ldots)) = L((x_1, x_2, \ldots))$ 。

构造：在 $\ell^\infty$ 上定义一个次线性泛函 $p(x) = \limsup_{n} \frac{1}{n} \sum_{k=1}^n x_k$ （上 Cesàro 平均）。在收敛序列的子空间上， $$p$$ 与 $\lim$ 一致。Hahn-Banach 将 $\lim$ 延拓为泛函 $L: \ell^\infty \to \mathbb{R}$ 使得 $L(x) \leq p(x)$ 。稍作工作显示 $$L$$ 是平移不变的，且 $\|L\| = 1$ 。

Banach 极限不是唯一的（不同的 Hahn-Banach 延拓给出不同的 Banach 极限）且无法明确定义（没有 $$L$$ 的公式；构造需要通过 Zorn 的选择公理）。在有界序列 $(0, 1, 0, 1, \ldots)$ 上（它在经典意义上不收敛），每个 Banach 极限都给出 $$L = 1/2$$ ，通过平均和平移不变性。因此，Banach 极限为所有有界序列提供了收敛值，代价是值取决于选择了哪个延拓。

这是一个奇怪但有用的对象。它填充了 $(\ell^\infty)^* \setminus \ell^1$ ，也就是 $\ell^\infty$ 对偶中不来自 $\ell^1$ 向量的那部分。它也是泛函分析中没有构造性类比的存在性证明的一个干净示例。

Hahn-Banach 详细应用：证明 $$C[K]^*$$ 的 Riesz 表示#

Riesz-Markov-Kakutani 定理把 $$C[K]^*$$ 鉴定成紧度量空间 $$K$$ 上有限符号 Borel 测度的空间 $$M[K]$$ 。完整证明实质性地用到 Hahn-Banach，下面草拟一下。

步骤 1： $$C[K]$$ 上的有界线性泛函 $\varphi$ 通过 Hahn-Banach 延拓到更大的空间 $$B(K)$$ （ $$K$$ 上有界 Borel 可测函数）上的有界线性泛函 $\widetilde\varphi$ ，范数不变。（用一个次线性主导函数； $\varphi$ 的有界性给出正确的主导。）

步骤 2： $$B(K)$$ 上的延拓 $\widetilde\varphi$ 在 Borel 集上定义一个有限可加集函数 $\mu(E) = \widetilde\varphi(\mathbb{1}_E)$ 。 $\widetilde\varphi$ 的有界性翻译成 $\mu$ 的全变差不超过 $\|\varphi\|$ 。

步骤 3： 证明 $\mu$ 是可数可加的。这一步用 $\mu$ 的正则性（紧集内逼近、开集外逼近）加上” $\widetilde\varphi$ 来自 $$C[K]$$ 上的连续线性泛函"这一原始假设。关键是当 $$K_n$$ 是嵌套紧集时， $\mathbb{1}_{K_1 \cup K_2 \cup \cdots}$ 在某种意义上能被连续函数逼近。

步骤 4： 验证 $\widetilde\varphi(f) = \int f\,d\mu$ 对所有 $f \in C[K]$ 成立。靠用简单函数逼近连续 $$f$$ 、加上 $\widetilde\varphi$ 在 $$B(K)$$ 上的连续性。

Hahn-Banach 的角色仅仅是步骤 1：把泛函从 $$C[K]$$ 延拓到 $$B(K)$$ 。没有这一延拓，就没有任何"测度候选"可言。Hahn-Banach 延拓的非唯一性在这里不重要，因为步骤 3 和 4 把延拓硬逼回到由所构造的 $\mu$ 在积分意义下给出的那一个唯一延拓。所以最终构造是典范的，哪怕中间的 Hahn-Banach 延拓不是。

这是一个典型套路：Hahn-Banach 在存在性意义上被使用，给出一个起点；剩下的论证强迫构造落在某个特定对象上。 我后来发现这套路在统计、概率、调和分析里反复出现。比如 Daniell 积分理论从 $$C_c$$ 上的正线性泛函构造出 Borel 测度，骨架几乎一样：先 Hahn-Banach 延拓到更大的函数类，再用正则性把延拓唯一化。每一次，“非唯一的 Hahn-Banach 延拓最终被外部条件唯一化"是关键的工程模式。

推广的 Banach 极限与 Cesàro 可和性#

上面构造的 Banach 极限可以推广成求和理论里的有用工具。给一个序列 $(x_n) \in \ell^\infty$ ，普通 Cesàro 可和说 $\frac{1}{N}\sum_{n=1}^N x_n$ 收敛。Banach 极限在 Cesàro 极限存在时与之一致、在任何有界序列上都给出值。代价是非唯一：不同的 Banach 极限构造在非 Cesàro 可和序列上给出不同的值。

一个干净的定理：有界序列 $$(x_n)$$ 在所有 Banach 极限下取同一值 $\Leftrightarrow$ $$(x_n)$$ 几乎收敛。这里"几乎收敛"指 $\frac{1}{N}\sum_{n=k+1}^{k+N} x_n$ 当 $N \to \infty$ 时关于 $$k$$ 一致收敛。所以 Banach 极限的唯一性等价于一个量化的平均收敛条件。 $(0, 1, 0, 1, \ldots)$ 几乎收敛到 $$1/2$$ ，因此每个 Banach 极限都给出 $$1/2$$ 。但用 Bohr 正密度集的指示函数构造出来的更病态序列，其 Banach 极限值就依赖具体选了哪一个延拓。

几乎收敛夹在 Cesàro 收敛和有界收敛之间，是给"逐点意义下不收敛但平均下表现良好"的序列恢复"极限"语义的方式。它的泛函分析内涵纯粹来自 Hahn-Banach：单一的平移不变有界线性 $\lim$ 延拓的存在性，自动产生几乎收敛作为典范的"最佳正则化”。

我第一次理解这个等价是在做遍历理论的练习时。Birkhoff 遍历定理保证保测变换下时间平均几乎处处收敛于空间平均；如果把"几乎处处"换成"对每个点轨道一致"，那要求的就是某种几乎收敛性。Banach 极限是这种"一致"语义的对偶载体：它不依赖具体起点，只依赖序列在平移下的整体行为。所以 Banach 极限和遍历论的连接不是巧合，是同一种"在平移群作用下取均值"的不同表述。

不动点联系：Markov-Kakutani#

凸分析里有一个用到 Hahn-Banach 机器的经典不动点定理：

可以证明（Markov-Kakutani 定理），设 $$K$$ 是 Hausdorff 拓扑向量空间中非空紧凸子集， $\mathcal{F}$ 是 $K \to K$ 的连续仿射映射的可交换族（任意两个 $T, S \in \mathcal{F}$ 满足 $$TS = ST$$ ）。那么存在公共不动点 $x \in K$ 使得 $$T x = x$$ 对每个 $T \in \mathcal{F}$ 成立。

证明思路：对每个 $T \in \mathcal{F}$ ，Cesàro 平均 $A_n^T(x) = \frac{1}{n}(x + Tx + \cdots + T^{n-1}x)$ 把 $$K$$ 映到 $$K$$ （凸性）；用紧性的聚点论证找到一个被所有 $$A_n^T$$ 在极限意义下固定的点。可交换假设让不同算子的不动点论证能够协调。

应用包括：可均群上的不变均值的存在（这正是 Banach 极限作为特例， $\mathcal{F}$ 由平移生成的情形）、紧群上的 Haar 测度 通过平均化论证给出的存在性、以及概率论里马氏链不变测度的存在性。每个应用本质上都是 Hahn-Banach 延拓定理穿了不动点的外衣。

我第一次看到这个定理时被它的"对称性破缺"震到：明明是凸集 + 紧 + 仿射，怎么不动点的存在性就保证了？后来发现它其实是 Hahn-Banach 几何形式 + 紧凸集上 Cesàro 平均的复合。Hahn-Banach 让"不动点的存在"变成"某个支撑泛函的存在"，紧凸集让支撑泛函达到极值，这两件事捆在一起就是 Markov-Kakutani。本系列后面在第七篇讨论紧算子的不变子空间问题时还会回到这个套路。

弱拓扑 vs 强拓扑（第 5 篇文章的预览）#

对偶空间引入了原始空间的新拓扑：弱拓扑，使所有对偶泛函连续的最粗拓扑。网 $x_\alpha \to x$ 弱收敛当且仅当 $\varphi(x_\alpha) \to \varphi(x)$ 对每个 $\varphi \in X^*$ 成立。范数收敛蕴含弱收敛；在无限维中，逆命题是假的。

弱收敛是你应该认为是“矩收敛”或“平均收敛”。一个典型例子：在 $L^2[0, 2\pi]$ 中，序列 $f_n(t) = \sin(n t)$ 在范数上不收敛（其范数为 $\sqrt{\pi}$ 对每个 $$n$$ 成立），但在弱拓扑下收敛到 $$0$$ （由 Riemann-Lebesgue 引理： $\int g(t) \sin(nt)\,dt \to 0$ 对每个 $g \in L^2$ 成立）。高频振荡在积分下抵消，但在范数下不抵消。弱收敛看得到抵消，范数收敛看不到。

使弱拓扑有用的是Banach-Alaoglu 定理： $$X^*$$ 的闭单位球在弱-* 拓扑下是紧的（对偶类似物）。当 $$X$$ 是自反的时， $$X$$ 的闭单位球在弱拓扑下是紧的，由 Eberlein-Šmulian 得出。这些是变分分析的工作马紧性结果。第 5 篇文章将证明它们。

一个具体应用： $$C[K]$$ 中的最佳逼近#

设 $$K$$ 是紧度量空间，考虑以下问题：给定 $f \in C[K]$ 和闭子空间 $M \subset C[K]$ ，找到 $$M$$ 中最接近 $$f$$ 的元素（在 sup 范数下）。

直接的最小化序列方法在 $$C[K]$$ 中很微妙，因为单位球不是弱紧的（空间不是自反的）。但 Hahn-Banach 给了一个优雅的替代方案：最佳逼近的对偶。

可以证明， $d(f, M) = \sup\{ |\varphi(f)| : \varphi \in M^\perp, \|\varphi\| \leq 1 \}$ ，其中 $M^\perp \subseteq (C[K])^*$ 是消没子。

右边是在对偶空间 $(M^\perp)$ 的闭单位球上的最大化，视作 $$(C[K])^*$$ 的子集。根据 Banach-Alaoglu（第 5 篇文章）， $$(C[K])^*$$ 的闭单位球在弱-* 拓扑下是紧的，其闭子集 $M^\perp \cap \overline{B}(0, 1)$ 也是。紧集上的连续函数达到其上确界，因此上确界由某个泛函 $\varphi^* \in M^\perp$ 达到。对偶已将“找到最佳逼近”转换为“找到最优认证泛函”，这通常更容易。

这个技巧是 Chebyshev 逼近理论的基础。泛函 $\varphi^*$ 根据 Riesz-Markov 是 $$K$$ 上的有限符号测度，Markov 的一个定理说它最多支持 $\dim M + 1$ 个点（Chebyshev 交替定理的伪装）。对于 $$[a, b]$$ 上的多项式逼近，这给出了经典的 Chebyshev 等振荡：最佳多项式逼近在 $\geq n+2$ 个点上围绕 $$f$$ 振荡。

数值示例#

在 $$[-1, 1]$$ 上用次数 $\leq 2$ 的多项式逼近 $$f(t) = t^4$$ （在 sup 范数下）。最佳逼近是 $$p^*(t) = t^2 - 1/8$$ （这可以从 Chebyshev 多项式理论推导出来： $$[-1, 1]$$ 上 $$t^4$$ 的最佳均匀逼近正是把它在 Chebyshev 基中的展开取前若干项）。误差 $$f - p^* = t^4 - t^2 + 1/8$$ 在 $$[-1, 1]$$ 的 $$5$$ 个点上等振荡： $\pm 1, \pm 1/\sqrt{2}, 0$ ，交替符号和幅度 $$1/8$$ 。因此 $$d(f, M) = 1/8$$ ，由显式极小极大配对达到：对偶泛函 $\varphi^*$ 是支持在这 $$5$$ 个点上的离散测度，带有适当的符号。

双极定理与闭凸包#

包含原点的 Banach 空间 $$X$$ 中的闭凸集 $$C$$ 由其极集确定： $C^\circ = \{ \varphi \in X^* : \varphi(x) \leq 1 \text{ 对所有 } x \in C \}$ 。对称地， $(C^\circ)^\circ = \{ x \in X : \varphi(x) \leq 1 \text{ 对所有 } \varphi \in C^\circ \}$ ，且双极定理说 $(C^\circ)^\circ = C$ 对于包含 $$0$$ 的闭凸集 $$C$$ 成立（其中双极是相对于 $$X$$ 和 $$X^*$$ 的典范配对）。

双极定理是 Hahn-Banach 几何形式的直接结果： $$C$$ 外的任何点可以通过一个连续泛函与 $$C$$ 分离，该泛函属于 $C^\circ$ 并见证双极包含的失败。因此，极集/双极对偶忠实表示闭凸集为其“支撑超平面数据”。

凸分析和优化主要是处理这种对偶。凸函数的 Fenchel-Legendre 变换正好是应用于 epigraph 的极集，由此产生的 Fenchel 对偶定理将 $$f + g$$ 的最小化简化为对偶变量上 $$-f^* - g^*$$ 的最大化，其中 $$f^*$$ 是共轭。现代优化中最干净的算法（近端方法、ADMM、镜像下降）都活在原-对偶配对里：算法在 $$X$$ 上更新原变量，同时在 $$X^*$$ 上更新对偶变量，每一步都用极/双极的几何把它们绑在一起。这套语言的好处是它把 Lagrange 乘子、罚函数、对偶上升等许多看起来不同的方法统一成同一个原-对偶迭代框架。

我第一次看到这套对偶时，被它的“坐标无关”性震到了。原变量空间 $$X$$ 可以是 $\mathbb{R}^n$ 、 $$L^2$$ 、Sobolev 空间，对偶 $$X^*$$ 也跟着变；但 Fenchel 对偶的形式不变，只是配对 $\langle \varphi, x \rangle$ 换成了对应空间的版本。这意味着我可以先把问题写成抽象的原-对偶形式，再选具体空间：选 $$L^2$$ 得到经典的最小二乘，选 $$L^1$$ 得到稀疏正则化，选 BV 得到全变差去噪。每种选择背后是不同的对偶 $$X^*$$ ，但优化结构是同一个。

为什么这很重要#

回到本篇一开始的承诺：对偶不是一个可以跳过的形式步骤。 $$X^*$$ 是一种“看见 $$X$$ ”的方式，Hahn-Banach 保证每个我想看见的东西都能被某个泛函看见，几何形式保证两个不相交的凸集可以被一个超平面分开。“足够多的泛函”和“足够多的分离”这两件事，是后面三章的反复主题。

在第五篇里，弱收敛 $x_n \rightharpoonup x$ 的定义就是 $\varphi(x_n) \to \varphi(x)$ 对所有 $\varphi \in X^*$ 成立。没有 Hahn-Banach，弱拓扑会瘪掉：若 $$X^*$$ 不够丰富，弱收敛就退化成强收敛，或者干脆失去 Hausdorff 性质。Banach-Alaoglu 关于对偶单位球弱-* 紧的定理也只在 $$X^*$$ 足够大时有意义，而 Hahn-Banach 正是“足够大”的来源。

在第六篇关于三大定理（一致有界、开映射、闭图）的证明里，对偶论证是把局部估计抬到全局估计的标准手段。一个算子是否有界、是否满射、图是否闭，往往要通过对偶配对来翻译成更容易验证的命题。这一切的语法都是这一篇定下来的。

超越 Banach：局部凸空间#

Hahn-Banach 在局部凸拓扑向量空间上完整成立，这指配 Hausdorff 拓扑、且拓扑由分离族半范数生成的向量空间。这一般化覆盖了 Schwartz 函数空间、分布空间、全纯函数空间，以及许多其他不是 Banach 但在分析中天然出现的函数空间。

几何形式也推广：在局部凸空间里，两个不相交凸集只要其中一个开、另一个任意，就可以被连续线性泛函分离。任何闭凸集在边界点都有支撑超平面定理也成立。

不推广的是更定量的结果（闭值域定理、某些情形下精确的对偶范数）。局部凸设定是 Hahn-Banach 最基础、最灵活的场合，也是它在分布理论和局部紧群上调和分析中应用最干净的地方。

举一个我反复用的例子。Schwartz 空间 $\mathcal{S}(\mathbb{R}^n)$ 由速降光滑函数组成，配半范数族 $p_{\alpha,\beta}(f) = \sup_x |x^\alpha \partial^\beta f(x)|$ 。 $\mathcal{S}$ 不是 Banach 空间（没有单一范数能控制所有 $p_{\alpha,\beta}$ ），但它是局部凸的，所以 Hahn-Banach 给我足够多的连续泛函，这些泛函合起来叫缓增分布 $\mathcal{S}'$ 。Fourier 变换、卷积、微分这一整套机器都活在 $\mathcal{S}$ 与 $\mathcal{S}'$ 的对偶配对上。如果不把 Hahn-Banach 推广到局部凸设定，缓增分布根本就构造不出来；而没有缓增分布，PDE 的频域分析（椭圆正则性、波算子谱）就失去基础。

这也是我为什么把"局部凸"放在反例之前讲。前面的反例（ $$0 < p < 1$$ 时 $$L^p$$ 上 Hahn-Banach 失效）说明了局部凸性是必要条件；这一节说明，只要保住局部凸性，Banach 之外照样有完整的对偶机器可用。

反例：Hahn-Banach 在非局部凸空间里失效#

Hahn-Banach 是一个局部凸性结果。Banach 空间总是局部凸（开球生成的拓扑允许 Minkowski 泛函），但更一般的拓扑向量空间可以不局部凸，这时定理彻底失效。

经典反例： $$L^p[0,1]$$ 当 $$0 < p < 1$$ 。这种 $$L^p$$ 不是 Banach 空间，“范数” $\|f\|_p = (\int |f|^p)^{1/p}$ 不满足三角不等式，但 $d(f, g) = \int |f - g|^p$ （注意没有 $$1/p$$ 次方）是一个完备度量，使 $$L^p$$ 成为完备的拓扑向量空间。然而唯一的连续线性泛函是零： $(L^p)^* = \{0\}$ 对 $$0 < p < 1$$ 。

证明大意：设 $\varphi \neq 0$ 是 $$L^p$$ 上的连续线性泛函。对任何 $f \in L^p$ ，可以把 $$f$$ 拆成两半 $$f = f_1 + f_2$$ ，使 $\int |f_1|^p = \int |f_2|^p = \frac{1}{2} \int |f|^p$ （用截断点的中值定理）。 $\varphi(f) = \varphi(f_1) + \varphi(f_2)$ ，所以至少一边满足 $|\varphi(f_i)| \geq \frac{1}{2}|\varphi(f)|$ 。但 $d(f_i, 0) = \frac{1}{2} d(f, 0)$ 。迭代 $$n$$ 次得到 $$f_n$$ 满足 $d(f_n, 0) = 2^{-n} d(f, 0)$ 而 $|\varphi(f_n)| \geq 2^{-n} |\varphi(f)|$ ，这跟连续性的"小输入推出小输出"原本一致。但当 $$p < 1$$ 时， $$d$$ 是 $$p$$ -齐次的（不是 $$1$$ -齐次）， $d(2^k f_n, 0) = 2^{kp} d(f_n, 0) \to 0$ 当 $$kp - n < 0$$ ，而 $|\varphi(2^k f_n)| = 2^k |\varphi(f_n)|$ 可以任意大。把 $$k$$ 调到合适大小，让输入趋于 $$0$$ 而输出爆炸，这就与连续性矛盾。

教训：Hahn-Banach 的输入条件，即存在一个支配的次线性泛函，本质上要求局部凸。Banach 空间的范数 $\|\cdot\|$ 自动是次线性的（ $$1$$ -齐次 + 三角不等式），所以 Hahn-Banach 在 Banach 空间里"免费"成立。换到非局部凸的设定，对偶可能塌缩到零，整套对偶论证、弱拓扑、变分法都失效。

我为什么在意#

Hahn-Banach 真正在我脑子里扎根是研究生资格考的一道题。题目要求证明在某个限制等距条件下，给定向量 $x_0 \in \mathbb{R}^n$ 是某个 $\ell^1$ -正则化最小二乘问题的唯一极小化点。我花了四十分钟尝试显式构造对偶证书：在测量矩阵的行空间里写一个向量 $$w$$ 、在支撑外限制它的 $\ell^\infty$ 范数、和拒绝闭合的三角不等式纠缠。草稿纸成了逐分量估计的灾难现场。

然后我想起来几何形式。这道题不是关于坐标的，是关于"把一个点和一个凸集分离开"的。 $\ell^1$ 球是多面体；测量约束定义仿射子空间。极小化点的唯一性等价于"仿射子空间在恰好一个顶点上碰到 $\ell^1$ 球、其余位置都在球外"。我不再逐分量构造 $$w$$ ，而是直接调用 Hahn-Banach 保证那个顶点上有支撑超平面。超平面的法向量就是对偶证书。 几何配置一旦验证，存在性自动给。我把证明重写成六行：定义两个凸集、检查相对内部不相交、调用分离、读出法向量。监考圈出 Hahn-Banach 那一步，写"this is the point"。

那一刻治好了我硬怼泛函构造的毛病。Hahn-Banach 不是一个要去证的引理，是一张许可证：只要凸几何允许，你就可以假设你需要的那个泛函存在。 我从此停止与坐标搏斗，开始画集合。后来做 PDE 弱解、做凸优化对偶、做信号恢复，每次卡住的瞬间几乎都是因为我又退回到坐标视角；提醒自己"凸集 + 分离 + 法向量"这三步是 Hahn-Banach 的工作模式，问题立刻松动。

常见陷阱：把代数线性泛函当成连续线性泛函#

每个有限维线性泛函都连续，这条本科直觉在无穷维瓦解。 $$X$$ 上的代数对偶 $$X'$$ （所有线性映射 $X \to \mathbb{C}$ ，不要求连续）严格大于拓扑对偶 $$X^*$$ （连续线性映射）。

具体例子： $X = \ell^2_{fin}$ （有限支撑序列空间）。用 Zorn 引理选一个 Hamel 基 $\{e_n\}_{n \in \mathbb{N}} \cup \{b_\alpha\}$ ，其中 $b_\alpha$ 充满 $\ell^2_{fin}$ 中"非有限支撑"的方向（例如 Hamel 基扩张到完整 $\ell^2$ 的代表元）。定义 $\varphi(e_n) = n$ 、 $\varphi(b_\alpha) = 0$ 。这个 $\varphi$ 在代数上良定义（线性扩展）。但 $\|e_n\|_2 = 1$ 而 $\varphi(e_n) = n$ 无界，所以 $\varphi$ 不连续。

陷阱在哪：本科线性代数从不区分代数和拓扑对偶，因为有限维里它们一致。无穷维要每次写下"线性泛函"就先问"连续吗"。Hahn-Banach 延拓的是次线性受控的泛函，自动给出连续延拓，但前提是输入也是连续的。代数线性泛函可以延拓到代数对偶（ $$X'$$ 的元素），那是不同的对象，不出现在 $\|\varphi\|_{X^*}$ 这种范数表述里。本系列后续每出现"线性泛函"都默认连续，但这不是免费的，它是 Hahn-Banach 的输出，不是输入。

下一步#

到目前为止，我对收敛的所有讨论都在范数拓扑里： $\|x_n - x\| \to 0$ 。但对偶引入了一种新的、更弱的收敛，即弱收敛： $\varphi(x_n) \to \varphi(x)$ 对所有 $\varphi \in X^*$ 。这看似是一个技术性放松，实际上彻底改变了无穷维分析的可用工具。

下一篇会专门讨论弱拓扑与弱-* 拓扑：它们的定义、它们与范数拓扑的差距、Banach-Alaoglu 定理（对偶单位球的弱-* 紧性）、自反空间中弱单位球的紧性。无穷维空间的范数闭单位球永远不紧（Riesz 定理），但弱单位球可以紧，这正是泛函分析在变分问题、PDE 存在性、最优化中能给出存在性证明的关键。Hahn-Banach 让弱拓扑非平凡，Banach-Alaoglu 让它有用，下一篇会把这两件事拼成一个能干活的工具。

为什么要换一种方式看向量#

为什么你不能跳过这篇文章#

对偶空间#

经典对偶#

数值示例#

Hahn-Banach 定理（解析形式）#

证明概要#

为什么这很重要#

几何 Hahn-Banach：凸集的分离#

证明概要#

为什么这很重要#

支撑超平面#

数值示例#

二次对偶与自反性#

示例#

为什么自反性重要#

Goldstine 与 $X$ 在 $X^{**}$ 中的稠密性#

有界算子的伴随（对偶）#

数值示例#

消没子与预消没子#

为什么这很重要#

商对偶与第一同构定理#

数值示例#

$L^p$ 对偶详细说明#

数值示例#

Hahn-Banach 的微妙应用：Banach 极限#

Hahn-Banach 详细应用：证明 $C[K]^*$ 的 Riesz 表示#

推广的 Banach 极限与 Cesàro 可和性#

不动点联系：Markov-Kakutani#

弱拓扑 vs 强拓扑（第 5 篇文章的预览）#

一个具体应用：$C[K]$ 中的最佳逼近#

数值示例#

双极定理与闭凸包#

为什么这很重要#

超越 Banach：局部凸空间#

反例：Hahn-Banach 在非局部凸空间里失效#

我为什么在意#

常见陷阱：把代数线性泛函当成连续线性泛函#

下一步#

泛函分析 12 篇

读有所得？

继续阅读

微分几何（十二）：纤维丛、特征类与物理学

微分几何（十）：黎曼几何 — 度量、联络和平行移动

微分几何（五）：高斯-博内定理 —— 几何与拓扑的交汇点

Goldstine 与 $$X$$ 在 $X^{**}$ 中的稠密性#

$$L^p$$ 对偶详细说明#

Hahn-Banach 详细应用：证明 $$C[K]^*$$ 的 Riesz 表示#

一个具体应用： $$C[K]$$ 中的最佳逼近#