泛函分析（七）：紧算子——通往有限维的桥梁

我对紧算子的喜爱源于一次小小的尴尬。作为本科生时，我曾以为无限维线性代数处处都充满异国情调。其实不然。在算子理论中有一个广阔且研究透彻的领域，在那里，关于对称矩阵的一切知识：特征值、正交特征向量、谱分解，几乎原封不动地重现，只是特征值逐渐趋近于零，而不是一个有限列表。这个领域就是紧算子的世界，进入这个世界的唯一条件是：算子必须将单位球挤压成相对紧集。

第一次让我具体感受到这件事，是在做 Sturm-Liouville 特征值问题时。微分算子 $$-d^2/dx^2$$ 在 $H^2 \cap H^1_0$ 上是无界的，谱定理直接套不上去；但它的预解算子 $(-d^2/dx^2)^{-1}$ （积分一次再积分一次）是紧的，谱定理立刻给出一列特征值 $\lambda_n = n^2 \pi^2$ 和正交特征函数 $\sin(n\pi x)$ 。换句话说，紧性不是抽象的抽屉，而是“把无界微分问题变成有限维谱问题”的关键传送带。无穷维谱论几乎所有“干净”的结论都先经过这个传送带。

一旦满足这个条件，几乎所有结论都会随之而来：谱是可数的，非零特征值是孤立的，并且对应的特征空间是有限维的，Fredholm 选择定理成立，第二类积分方程变得像线性系统一样易于处理。矩阵和无限维算子之间的界限不再是不可逾越的墙，而变成了一层可渗透的膜。

“将有界集映射到预紧集”这个条件听起来很抽象，但它精确地表达了这个算子的行为几乎像一个矩阵。从几何上看，一般的有界算子可以将单位球映射成与单位球本身一样狂野的东西（没有获得紧性），而紧算子必须将其映射成“本质上是有限维”的集合。对于任意给定的误差 $\varepsilon$ ，可以用有限个 $\varepsilon$ -球覆盖这个集合。算子不能将质量均匀分布在无穷多个方向上；它必须集中在有限个方向上（误差可以任意小）。这种集中使得谱分解成为可能：算子“几乎”是一个有限秩算子，而有限秩算子其实就是矩阵。

术语注释：Riesz 在 1918 年把这些算子称为 vollstetig（完全连续）。旧的英文翻译“完全连续”仍然出现在 1970 年之前的书籍中。现代定义（将有界集映射到预紧集）更为简洁；旧定义（将弱收敛序列映射为范数收敛序列）在自反空间上等价，但在 $\ell^1$ 上不同。我在这里使用现代定义。

定义、例子和有限秩逼近#

Banach空间之间的算子 $T: X \to Y$ 是紧的，如果 $\overline{T(B_X)}$ 在 $$Y$$ 中是紧的，等价地说，如果每个有界序列 $$(x_n)$$ 都有一个子序列 $(x_{n_k})$ 使得 $(Tx_{n_k})$ 收敛。这个算子完成了紧化的工作，而所在的无限维空间没有完成。本文中的每一个巧妙论证都归结于在恰当时机提取出收敛的像子序列。

有限秩算子（那些 $\dim(\text{Range}(T)) < \infty$ 的算子）自动是紧的（有限维空间中的有界集通过Heine-Borel定理具有紧闭包）。紧算子的空间 $$K(X, Y)$$ 是 $$B(X, Y)$$ 的一个闭子空间，并且是一个双边理想：如果 $$T$$ 是紧的， $$S$$ 是有界的，那么 $$ST$$ 和 $$TS$$ 也是紧的。证明闭性：如果 $T_n \to T$ 按范数收敛，且每个 $$T_n$$ 是紧的，那么对于任何 $\varepsilon > 0$ ，选择 $$n$$ 使得 $\|T - T_n\| < \varepsilon/3$ 。预紧集 $$T_n(B_X)$$ 有一个有限的 $\varepsilon/3$ -网，这可以作为 $$T(B_X)$$ 的一个有限 $\varepsilon$ -网（由三角不等式）。由此得出 $$T(B_X)$$ 的全有界性，从而得到预紧性。

Hilbert空间的关键结构事实是：Hilbert空间上的每个紧算子都是有限秩算子的范数极限：证明：设 $$(e_n)$$ 是正交基， $$P_n$$ 是到 $\text{span}\{e_1, \ldots, e_n\}$ 的投影。那么 $$P_n T$$ 是有限秩的，并且 $\|T - P_n T\| \to 0$ （因为 $$T(B_H)$$ 是预紧的，而在Hilbert空间中预紧集可以通过它们在有限维子空间上的投影来逼近）。这是Hilbert空间的逼近性质在所有 $\ell^p$ 和 $$L^p$$ 空间中成立，但Enflo (1973) 证明了在某些奇异的Banach空间中不成立。

例题：积分算子： $$L^2[0,1]$$ 上的算子 $Kf(x) = \int_0^1 k(x,y) f(y)\,dy$ 具有连续核 $k \in C([0,1]^2)$ 是紧的。一种证明方法：单位球的像是均匀有界的（ $|Kf(x)| \leq \|k\|_\infty$ ）并且是一致连续的（ $|Kf(x_1) - Kf(x_2)| \leq \omega_k(|x_1-x_2|)$ ，其中 $\omega_k$ 是 $$k$$ 的连续模）。根据Arzela-Ascoli定理，这个像是 $$C[0,1]$$ 中的预紧集，因此在 $$L^2$$ 中也是预紧的。

另一种证明方法是通过Hilbert-Schmidt：如果 $k \in L^2([0,1]^2)$ ，那么 $$K$$ 是Hilbert-Schmidt 的，且 $\|K\|_{HS}^2 = \int\int |k(x,y)|^2\,dx\,dy < \infty$ 。Hilbert-Schmidt算子是紧的（把核 $$k$$ 在 $$L^2$$ 中按正交基展开后只取前 $$N$$ 项，得到的有限秩算子在算子范数下逼近 $$K$$ ）。对于 $$[0,1]^2$$ 上的连续 $$k$$ ， $\|k\|_{L^2} \leq \|k\|_\infty < \infty$ ，确认了紧性。

例题：Volterra算子： $Vf(x) = \int_0^x f(y)\,dy$ 在 $$L^2[0,1]$$ 上。核 $k(x,y) = \mathbf{1}_{y \leq x}$ 在 $$L^2([0,1]^2)$$ 中（且 $\|k\|_{L^2}^2 = 1/2$ ），所以 $$V$$ 是Hilbert-Schmidt的，因此是紧的。它的谱是 $\{0\}$ ，没有非零特征值（方程 $\int_0^x f = \lambda f$ 强迫 $f' = f/\lambda$ 且 $$f(0) = 0$$ ，给出 $$f = 0$$ ）。所以 $$V$$ 是一个非零紧算子，但其谱是平凡的，这说明紧算子的谱定理需要自共轭性。

非自共轭情况确实不同： $$V$$ 与其伴随算子具有相同的范数（ $\|V\| = \|V^*\| = 2/\pi$ ，从奇异值计算得出），但其谱半径为零而范数为正。算子是拟幂零的：所有幂 $$V^n$$ 都有 $\|V^n\|^{1/n} \to 0$ 。可以直接验证： $V^n f(x) = \int_0^x \frac{(x-y)^{n-1}}{(n-1)!} f(y)\,dy$ ，所以 $\|V^n\| \leq 1/n!$ 且 $\|V^n\|^{1/n} \leq (n!)^{-1/n} \to 0$ 。这使 $$V$$ 成为一个典型的“谱平凡”但“动力学非平凡”的紧算子，它没有特征值，但在作用于每个非零向量上是非平凡的。

非正规紧算子缺乏谱分解不仅是个不便之处，它反映了真正的复杂性。非正规算子理论（特别是不变子空间理论以及一般Banach空间上紧算子的未解决的不变子空间问题）比正规情况要困难得多。紧自共轭算子的谱定理是对称性的馈赠，而非自共轭算子不具备这种馈赠。

紧自伴算子的谱定理#

紧算子理论的核心是谱分解，它表明紧自伴算子的行为与实对角矩阵完全相同，且其元素趋于零。

这条定理我每次重新讲都会先停下来强调它的“奇迹”性质。在有限维线性代数里“对称矩阵正交对角化”是一个完全干净的定理：实特征值、正交特征向量、谱分解 $T = \sum \lambda_k P_k$ 。一旦进到无穷维，连“特征值是否存在”这件事都不平凡：位置算子在 $$L^2[0,1]$$ 上没有任何 $$L^2$$ 特征向量。但紧算子是个例外：紧自伴算子的谱定理几乎完整地保留了有限维结论，唯一的修改是“特征值列表可能是无穷的，但必须趋于零”。

这种保留不是巧合。紧性的本质是“算子把单位球挤压成相对紧集”，几何上是“算子几乎是有限秩的”。如果一个算子的像可以用有限维子空间任意逼近，那么它的谱行为也由有限秩部分决定，而有限秩自伴算子就是矩阵，所以谱定理几乎免费搬过来。这种“紧 = 几乎有限维”的直觉是本节剩下论证的核心，一旦内化它，证明的所有步骤都变得可预测。

核心结论是：设 $T: H \to H$ 是可分 Hilbert 空间上的紧自伴算子。那么存在一个标准正交的特征向量系统 $$(e_n)$$ 和对应的实特征值 $(\lambda_n)$ ，满足 $\lambda_n \to 0$ ，使得 $T = \sum_n \lambda_n \langle \cdot, e_n \rangle e_n$ 。这些特征值是唯一的非零谱值，每个特征值都有有限重数，并且它们只在零处累积。

证明概要：关键步骤是证明 $$T$$ 至少有一个特征向量。由于 $$T$$ 是自伴的， $\|T\| = \sup_{\|x\|=1} |\langle Tx, x\rangle|$ ，由紧性可知这个上确界在某个 $$e_1$$ 处达到，且 $Te_1 = \lambda_1 e_1$ ，其中 $|\lambda_1| = \|T\|$ 。（紧性将单位球上的上确界转化为实际的最大值。）现在将 $$T$$ 限制在 $\{e_1\}^\perp$ 上（自伴性保证 $$T$$ 在这个子空间上不变），重复上述过程。特征值形成一个趋于零的序列，因为 $\|T|_{\{e_1,...,e_n\}^\perp}\|$ 递减；若它们不趋于零，子序列 $(e_n/\lambda_n)$ 将是有界的，而 $T(e_n/\lambda_n) = e_n$ 没有收敛子序列，这与紧性矛盾。

谱分解给出了完全对角化：相对于扩展 $$(e_n)$$ 并加上 $\ker(T)$ 的一组基的标准正交基，算子 $$T$$ 是一个对角矩阵，其元素为 $\lambda_1, \lambda_2, \ldots, 0, 0, \ldots$ 。这是有限维定理“每个实对称矩阵都可以正交对角化”的无限维版本。有限维理论止步于“对角矩阵”，而无限维理论增加了一点：“对角线上的元素趋于零”。这种趋于零的现象体现了紧性，也是唯一的新要素。

一个重要推论：紧自伴算子的非零特征值只能在零处累积。它们不能在任何非零点聚集。这是因为如果 $\lambda \neq 0$ 是特征值的一个聚点，相应的特征向量 $$e_n$$ 满足 $Te_n = \lambda_n e_n$ （且 $\lambda_n \to \lambda$ ），则会形成一个标准正交序列，且 $\|Te_n\| = |\lambda_n| \geq |\lambda|/2 > 0$ 对于大的 $$n$$ 成立。但 $$(e_n)$$ 是有界的， $$(Te_n)$$ 将没有收敛子序列（这些向量是正交的，且范数远离零），这与紧性矛盾。因此，紧自伴算子的谱是一个趋于零的序列（可能包括零本身），这正是“对角线元素趋于零的对角矩阵”所具有的。

实例：Mercer 定理：如果 $$k(x,y) = k(y,x)$$ 是 $$[0,1]$$ 上的连续正定核函数，积分算子 $Kf = \int k(\cdot, y)f(y)\,dy$ 是紧的、自伴的且正的。谱定理给出 $k(x,y) = \sum_n \lambda_n e_n(x) e_n(y)$ ，并且一致收敛（Mercer 定理）。这是机器学习中核方法的基础：核矩阵 $K_{ij} = k(x_i, x_j)$ 的特征值是数据点处的系数 $\lambda_n$ ，Gram 矩阵的特征向量近似于特征函数 $$e_n$$ 。核的谱衰减速率决定了 RKHS 的有效维度。

对于高斯 RBF 核 $k(x,y) = e^{-|x-y|^2/(2\sigma^2)}$ ，特征值以超指数速度衰减（比任何几何序列都快），这就是为什么高斯核会产生实际上非常高维但不是真正无限维的特征空间。

特征值的极小极大表征（Courant-Fischer）从矩阵扩展到紧自伴算子： $\lambda_n = \min_{\dim V = n-1} \max_{x \perp V, \|x\|=1} \langle Tx, x\rangle$ 。这种变分表征是 Rayleigh-Ritz 方法计算特征值的基础：用有限维子空间近似无限维空间，并计算所得矩阵的特征值。Rayleigh-Ritz 近似的收敛性由极小极大原理保证：第 $$n$$ 个近似特征值随着近似空间的增长收敛到真实的第 $$n$$ 个特征值。这也是为什么有限元特征值计算有效，以及为什么 Galerkin 方法能提供椭圆算子（具有紧逆算子）的收敛特征值近似。

Fredholm 选择定理#

Fredholm 选择定理是紧算子的无穷维版本，它说明了方程 $$Ax = b$$ 要么有唯一解（当 $$A$$ 可逆时），要么齐次方程 $$Ax = 0$$ 有非平凡解（当 $$A$$ 奇异时），没有第三种可能。

Fredholm 选择定理是把矩阵理论中“秩 + 零度 = 维数”这条干净法则搬到无穷维的最简洁版本。在矩阵代数里，方程 $$Ax = b$$ 要么对每个 $$b$$ 都有解（ $$A$$ 可逆），要么齐次方程 $$Ax = 0$$ 有非平凡解（ $$A$$ 不可逆）。Fredholm 选择定理把同样的二选一搬到了 $\lambda I - T$ 这种形式（ $$T$$ 紧， $\lambda \neq 0$ ）。结果是：第二类积分方程 $\lambda f - Kf = g$ （ $$K$$ 紧）的可解性由一个有限维的特征值计算完全决定，这跟矩阵代数感觉完全一样。

这种二选一在第一类积分方程 $$Kf = g$$ 上失败。第一类方程对应 $\lambda = 0$ ，而 Fredholm 选择只对 $\lambda \neq 0$ 成立。在 $\lambda = 0$ 处，紧算子的预解算子 $K^{-1}$ 在值域上无界（这是“紧算子谱里 0 是积累点”的另一面），方程是不适定的：存在性需要数据满足无穷多个相容条件、唯一性可能成立、稳定性失败。这种区别在数值上很重要：第二类积分方程可以用 Galerkin 方法稳定数值求解，第一类积分方程必须先用 Tikhonov 等方法正则化才能数值处理。

核心结论是：设 $T: X \to X$ 是紧算子且 $\lambda \neq 0$ 。那么以下两种情况必有一种成立：

(A) $\ker(\lambda I - T) = \{0\}$ ，此时 $\lambda I - T$ 是双射且 $(\lambda I - T)^{-1}$ 有界。方程 $\lambda x - Tx = y$ 对每个 $$y$$ 都有唯一解。

(B) $\ker(\lambda I - T) \neq \{0\}$ ，此时 $\lambda$ 是特征值且对应的特征空间是有限维的。方程 $\lambda x - Tx = y$ 可解当且仅当 $y \perp \ker(\lambda I - T^*)$ （有限个相容条件）。

证明结合了三个要素。首先， $\ker(\lambda I - T)$ 是有限维的（因为 $$T$$ 在其上作用为 $\lambda I$ ，所以有界序列只有在空间是有限维时才有收敛子列）。其次， $\text{Range}(\lambda I - T)$ 是闭的，这用到一个标准的分裂论证和紧性。最后，Fredholm 指数 $\dim\ker(\lambda I - T) - \dim\text{coker}(\lambda I - T) = 0$ （它在紧扰动下不变且对 $$T = 0$$ 时为零）。

为什么这对积分方程很重要。形如 $\lambda f - Kf = g$ 的方程（第二类 Fredholm 方程），其中 $$K$$ 是具有良好核的积分算子，正好属于这个框架。要么对于每个右端项 $$g$$ 有唯一解（一般情况），要么齐次方程有有限多个解且 $$g$$ 有有限个相容条件。不存在连续谱，也没有“几乎可解”的情形。这使得第二类积分方程比第一类积分方程（ $$Kf = g$$ ，其中 $$K$$ 的值域可能不闭且求逆是不适定的）要好处理得多。

具体例子。考虑 $$L^2[0,1]$$ 上的方程 $\lambda f(x) - x\int_0^1 y f(y)\,dy = g(x)$ 。算子 $Tf(x) = x\int_0^1 yf(y)\,dy$ 是秩-1的（它的像是函数 $$x$$ 的张成空间）。特征值方程 $Tf = \mu f$ 强制 $f = cx/\mu$ 对某个常数 $$c$$ 成立，代入得到 $c = c/(3\mu)$ ，因此 $\mu = 1/3$ 。于是 $$T$$ 有一个非零特征值 $\mu = 1/3$ 和特征函数 $$f(x) = x$$ 。根据 Fredholm 选择定理：对于 $\lambda \neq 0$ 且 $\lambda \neq 1/3$ ，方程有唯一解。在 $\lambda = 1/3$ 时，可解性要求 $g \perp \ker(T^* - \frac{1}{3}I)$ 。由于 $T^*h(y) = y\int_0^1 xh(x)\,dx$ （结构相同）， $$T^*$$ 在 $$1/3$$ 处的特征函数也是 $$h(y) = y$$ 。因此相容条件是 $\int_0^1 y\,g(y)\,dy = 0$ 。

Fredholm 理论的优雅之处在于，整个积分方程的可解性分析归结为一个有限维的特征值计算。算子 $$T$$ 是无穷维的，但在任何非零 $\lambda$ 时，其谱行为由有限维核控制。这就是紧算子“本质上是有限维”的意义：不是说它们是有限秩的，而是它们不可逆的原因总是有限维的。

另一个物理动机的例子：Neumann 级数。对于 $\|\lambda^{-1}T\| < 1$ （即 $|\lambda| > \|T\|$ ），预解式 $(\lambda I - T)^{-1} = \lambda^{-1}\sum_{n=0}^\infty (\lambda^{-1}T)^n$ 几何收敛。这是散射理论中的“Born 级数”，每一项代表更高阶的散射事件。对于 $|\lambda| \leq \|T\|$ ，级数可能发散，但 Fredholm 选择定理仍然保证除了（最多可数个）特征值外，预解式存在。紧算子的谱完全由特征值（加上可能的零点）组成——没有连续谱，也没有非零点的剩余谱。

奇异值、希尔伯特-施密特和迹类#

对于非自伴紧算子，谱定理不直接适用，但奇异值分解提供了完整的结构描述。对于任何紧算子 $T: H \to H$ ，算子 $$T^*T$$ 是紧的、自伴的且正定的。将谱定理应用于 $$T^*T$$ 可以得到特征值 $s_1^2 \geq s_2^2 \geq \ldots \geq 0$ ，这些特征值趋于零。奇异值是 $s_n = \sqrt{\lambda_n(T^*T)}$ ，奇异值分解为：

T = \sum_n s_n \langle \cdot, v_n \rangle u_n

其中 $$(v_n)$$ 是 $$T^*T$$ 的特征向量， $$u_n = Tv_n/s_n$$ 。这是矩阵奇异值分解在无限维空间中的对应物，它完整地描述了“ $$T$$ 如何拉伸和旋转空间”。向量 $$v_n$$ 是“输入方向”（右奇异向量）， $$u_n$$ 是“输出方向”（左奇异向量）， $$s_n$$ 是第 $$n$$ 个方向上的“拉伸因子”。紧算子沿着可数多个正交方向拉伸，拉伸因子逐渐趋近于零，把大部分空间压缩到可以忽略的维度。

奇异值分解是理解紧算子保留和破坏哪些信息的自然工具。如果 $$s_n$$ 迅速衰减（指数级），算子实际上映射到一个低维空间，输入中的大部分信息丢失。如果 $$s_n$$ 缓慢衰减（多项式级），算子保留更多信息，但最终仍然会压缩。紧算子的“有效秩”（高于某个阈值 $\varepsilon$ 的奇异值数量）量化了其信息容量，是数值低秩逼近中的关键参数。

奇异值控制着定量性质：

$\|T\|_{op} = s_1$ （算子范数 = 最大奇异值）。
$\|T\|_{HS} = (\sum s_n^2)^{1/2}$ （希尔伯特-施密特范数）。
$\|T\|_1 = \sum s_n$ （迹范数 / 核范数）。

希尔伯特-施密特算子是指满足 $\sum s_n^2 < \infty$ 的算子，等价于对任何标准正交基有 $\sum_n \|Te_n\|^2 < \infty$ 。它们形成一个具有内积 $\langle S, T\rangle_{HS} = \sum \langle Se_n, Te_n\rangle$ 的希尔伯特空间。对于积分算子， $\|K\|_{HS} = \|k\|_{L^2}$ ：算子是希尔伯特-施密特的当且仅当核函数是平方可积的。这是一个非常简洁的对应关系。

迹类算子满足 $\sum s_n < \infty$ 。迹 $\text{tr}(T) = \sum \langle Te_n, e_n\rangle$ 是良好定义的，与基无关，并且满足 $\text{tr}(AB) = \text{tr}(BA)$ 。李德斯基定理指出迹等于特征值之和： $\text{tr}(T) = \sum \lambda_n$ 。在量子力学中，密度矩阵（混合态）是正的迹类算子，满足 $\text{tr}(\rho) = 1$ ，而冯·诺伊曼熵 $S(\rho) = -\text{tr}(\rho\log\rho)$ 需要迹类结构。

这个层次结构是严格的：对于 $\ell^2$ 上的对角算子 $$D$$ ，其元素为 $$d_n$$ ：

$$d_n = 1/n$$ ：紧的（元素趋于零），希尔伯特-施密特（ $\sum 1/n^2 = \pi^2/6$ ），不是迹类（ $\sum 1/n = \infty$ ）。
$$d_n = 1/n^2$$ ：迹类（ $\sum 1/n^2 < \infty$ ），并且 $\text{tr}(D) = \pi^2/6$ 。
$d_n = 1/\sqrt{n}$ ：紧的，不是希尔伯特-施密特（ $\sum 1/n = \infty$ ）。

每个层次都有不同的几何意义，在应用中这种区分很重要：希尔伯特-施密特算子是“一般的”紧算子（大多数具有合理核函数的积分算子），迹类算子是“行为良好的”紧算子（需要用于迹、行列式和量子统计力学）。

这些算子理想之间的对偶关系反映了序列空间对偶 $\ell^1 \subset \ell^2 \subset c_0$ ：迹类算子形成了 $$B(H)$$ 的预对偶（ $$B(H)$$ 上的每个正规线性泛函都是 $T \mapsto \text{tr}(\rho T)$ ，其中 $\rho$ 是唯一的迹类算子），希尔伯特-施密特算子形成一个希尔伯特空间，紧算子形成“无穷远处消失”的理想（奇异值趋于零）。 $$B(H)$$ 的 $$C^*$$ -代数结构（在任何无限维希尔伯特空间中，紧算子是唯一的闭双边理想）使得这些分类是内在的而不是依赖于基的。

在量子信息理论中，密度矩阵之间的迹范数距离 $\|\rho - \sigma\|_1 = \text{tr}|\rho - \sigma|$ 量化了量子态的可区分性（它等于区分 $\rho$ 和 $\sigma$ 的最大成功概率的两倍减一）。希尔伯特-施密特距离 $\|\rho - \sigma\|_{HS}$ 计算上更简单，但在物理上意义较小。算子范数 $\|\rho - \sigma\|_{op}$ 给出最大特征值差。每个范数捕捉不同的操作意义，而迹 $\geq$ 希尔伯特-施密特 $\geq$ 算子的层次反映了物理可区分性标准的顺序。

紧算子与反问题#

紧算子在实际应用中既实用又危险。许多反问题可以表示为：给定测量数据 $$g$$ ，从 $$Tf = g$$ 中恢复底层信号 $$f$$ ，其中 $$T$$ 是一个紧前向算子。例如：去模糊（与 PSF 卷积）、X 射线断层扫描（Radon 变换）、热方程逆时（演化算子）。

$$T$$ 的紧性对求逆来说是个坏消息。由于奇异值 $s_n \to 0$ ，形式逆 $T^{-1}g = \sum s_n^{-1}\langle g, u_n\rangle v_n$ 会灾难性地放大高频成分： $$g$$ 中频率为 $$n$$ 的噪声会被放大 $1/s_n \to \infty$ 倍。这就是所谓的不适定性：数据中的小误差会导致重建中的大误差。

标准的解决方法是 Tikhonov 正则化：用 $(T^*T + \alpha I)^{-1}T^*$ 替代 $T^{-1}$ ，其中 $\alpha > 0$ 。在 SVD 基下：

T_\alpha^{-1} g = \sum_n \frac{s_n}{s_n^2 + \alpha} \langle g, u_n\rangle v_n.

滤波因子 $s_n/(s_n^2 + \alpha) \approx 1/s_n$ 当 $s_n \gg \sqrt{\alpha}$ 时（在分辨率高的方向上信任数据），而 $\approx s_n/\alpha \to 0$ 当 $s_n \ll \sqrt{\alpha}$ 时（抑制分辨率低的方向上的噪声）。参数 $\alpha$ 控制分辨率和稳定性的权衡。

这不仅仅是工程技巧，它有精确的算子理论解释。Tikhonov 正则化解决了 $\min_f \|Tf - g\|^2 + \alpha\|f\|^2$ ，根据 Lax-Milgram 定理，在任何 Hilbert 空间中都有唯一解。当 $\alpha \to 0$ 时，正则化解收敛到 $$Tf = g$$ 的最小范数最小二乘解（当方程一致时）。收敛速度取决于源条件（ $$f$$ 的光滑度相对于 $$T$$ 的奇异值衰减）并属于正则化理论的研究内容。

核心结论是：紧算子平滑，而平滑难以求逆。 $$T$$ 的奇异值衰减速率量化了不适定的程度。轻度不适定问题（多项式衰减 $s_n \sim n^{-\alpha}$ ，如数值微分 $\alpha = 1$ ）可以有效正则化，可达到的分辨率随噪声水平多项式下降。重度不适定问题（指数衰减 $s_n \sim e^{-cn}$ ，如逆时热方程或解析延拓）抵抗正则化：可达到的分辨率仅随噪声水平对数下降，这意味着即使适度的噪声也会破坏大部分信息。

现代反问题方法（压缩感知、全变差正则化、深度学习先验）都在这个 SVD 框架内运作。它们在惩罚项的选择上有所不同（小波基下的稀疏性、有界变差、学习的神经网络先验），但共享结构诊断：紧算子抹去了高频成分的信息，重建需要先验假设来替代丢失的信息。紧自伴算子的谱定理应用于 $$T^*T$$ ，构成了整个反问题领域的数学基础。

紧性判据与Rellich-Kondrachov嵌入#

在实际中如何证明一个特定算子是紧的？有三种标准方法：

(a) Arzela-Ascoli。证明单位球的像是均匀有界的且等度连续的。这种方法适用于具有连续核的积分算子映射到 $$C(K)$$ 的情况。

(b) 有限秩算子的范数极限。找到一列显式的有限秩逼近算子，使其在算子范数下收敛。对于Hilbert-Schmidt算子，可以把核展开只保留前 $$N$$ 项。

(c) 紧嵌入。证明 $$T$$ 可以通过一个紧嵌入因子分解。如果 $T: X \to Z$ 可以分解为 $T = J \circ S$ ，其中 $S: X \to Y$ 是有界的， $J: Y \to Z$ 是紧嵌入，则 $$T$$ 是紧的。

方法(c)是PDE应用中的主要工具，它将紧算子理论与Sobolev嵌入理论联系起来。基本思路是：正则性的增加带来紧性。一个比 $$L^p$$ 空间严格需要多一个导数的函数属于“更小”的空间（如 $W^{1,p}$ vs $$L^p$$ ），从这个更小的空间到更大的空间的嵌入是紧的。额外的正则性防止了任意细尺度上的振荡，这正是Arzela-Ascoli使用的等度连续条件。

Rellich-Kondrachov定理指出：对于有界Lipschitz区域 $\Omega \subset \mathbb{R}^n$ ，嵌入 $W^{1,p}(\Omega) \hookrightarrow L^q(\Omega)$ 在 $$q < p^* = np/(n-p)$$ 时是紧的，当 $$p < n$$ 时（临界Sobolev指数）。特别地， $W^{1,p} \hookrightarrow L^p$ 是紧的。对于 $$p > n$$ ，嵌入 $W^{1,p} \hookrightarrow C(\bar\Omega)$ 是紧的（Morrey不等式给出Holder连续性，然后用Arzela-Ascoli完成论证）。

对于有界区域上 $W^{1,2}(\Omega) \hookrightarrow L^2(\Omega)$ 的证明通过反证法和Fourier分析进行：如果嵌入不是紧的，那么存在一个在 $$H^1$$ 中有界的序列 $$(u_n)$$ ，但没有 $$L^2$$ 收敛的子序列。根据Banach-Alaoglu定理，可以提取出 $u_n \rightharpoonup u$ 在 $$H^1$$ 中弱收敛。接下来证明 $u_n \to u$ 在 $$L^2$$ 中强收敛，这用到 $$H^1$$ 的Fourier特征（Fourier系数 $\hat u_n(k)$ 满足 $\sum |k|^2|\hat u_n(k)|^2 \leq C$ ，因此对于高频部分 $$|k| > N$$ ， $\sum_{|k|>N} |\hat u_n(k)|^2 \leq C/N^2 \to 0$ 一致于 $$n$$ ，而对于低频部分，对角线论证给出Fourier系数的逐点收敛）。这个草图在环面上清晰有效；一般有界区域需要先用截取函数和延拓算子把问题搬到环面上，但思路相同。

在PDE存在性理论中，这表现为如下形式。考虑Dirichlet问题 $-\Delta u = f$ 在 $\Omega$ 上，边界条件为 $u|_{\partial\Omega} = 0$ 。解算子 $f \mapsto u$ 映射 $L^2(\Omega) \to H^2(\Omega) \cap H^1_0(\Omega)$ ，而嵌入 $H^2 \hookrightarrow L^2$ 是紧的（通过两次应用Rellich-Kondrachov： $H^2 \hookrightarrow H^1$ 紧， $H^1 \hookrightarrow L^2$ 紧）。因此，预解算子 $(-\Delta)^{-1}: L^2 \to L^2$ 是一个紧算子。其谱定理给出特征值 $1/\lambda_n$ ，其中 $\lambda_n$ 是 $-\Delta$ 的Dirichlet特征值（ $\lambda_n \to \infty$ ，确保 $1/\lambda_n \to 0$ 以满足紧性要求）。特征函数在 $L^2(\Omega)$ 中形成一个完备的正交系统。

这种联系（紧预解算子意味着离散谱）是微分算子谱理论中最重要的结构事实之一。只要区域 $\Omega$ 是有界的，Laplacian（Dirichlet、Neumann或混合）在有界区域上就有紧预解算子，因此有离散谱。在无界区域上，预解算子可能不是紧的（谱可能有连续部分），这是“粒子可以逃逸到无穷远”的数学内容。

物理解释很清晰：在有界区域上，系统是“受限的”（像盒子中的粒子），能量级是量子化的，预解算子是紧的。在无界区域上，粒子可以在高能量下自由传播，谱有连续部分，预解算子不是紧的。从离散谱到连续谱的转变，例如氢原子（零以下离散，零以上连续），对应于预解算子仅在某个谱子空间上是紧的，而划分能量是电离阈值。

对于数值计算：Galerkin方法用于计算 $-\Delta$ 在 $\Omega$ 上的特征值，通过投影到有限维子空间 $$V_h$$ （例如，网格大小为 $$h$$ 的分段多项式）。计算出的特征值 $\lambda_{n,h}$ 随着 $h \to 0$ 收敛到真实特征值 $\lambda_n$ ，误差界为 $|\lambda_{n,h} - \lambda_n| \leq C_n h^{2k}$ ，其中 $$k$$ 是多项式次数。预解算子的紧性保证了在极限过程中不会出现虚假特征值：每个数值特征值的聚点都是真实特征值，每个真实特征值也是数值特征值的聚点。这是对于紧预解算子的保形Galerkin方法的无谱污染性质，它依赖于紧性。

具体例子：在 $\Omega = (0, \pi)$ 上，Dirichlet Laplacian的特征值为 $\lambda_n = n^2$ ，特征函数为 $e_n(x) = \sqrt{2/\pi}\sin(nx)$ 。预解算子 $(-\Delta)^{-1}$ 将 $f = \sum c_n e_n$ 映射到 $u = \sum (c_n/n^2) e_n$ 。它的奇异值为 $$1/n^2$$ ，因此它是迹类的（ $\sum 1/n^2 = \pi^2/6$ ），特别是紧的。迹 $\text{tr}((-\Delta)^{-1}) = \sum 1/n^2 = \pi^2/6$ 与热迹有关： $\text{tr}(e^{t\Delta}) = \sum e^{-n^2 t}$ ，对于小 $$t$$ ， $\text{tr}(e^{t\Delta}) \sim |\Omega|/(4\pi t)^{1/2}$ ，这是Weyl定律，连接特征值渐近性与区域几何。

Weyl渐近律 $\lambda_n \sim c_d n^{2/d}$ （对于 $$d$$ 维区域上的Dirichlet Laplacian）决定了预解算子的奇异值衰减： $s_n((-\Delta)^{-1}) \sim n^{-2/d}$ 。在一维情况下，预解算子是迹类的（ $\sum n^{-2} < \infty$ ）。在二维情况下，它是Hilbert-Schmidt但不是迹类的（ $\sum n^{-1}$ 发散但 $\sum n^{-2}$ 收敛，等等，在二维情况下，Weyl定律给出 $\lambda_n \sim cn$ ，所以 $s_n \sim 1/n$ 且 $\sum 1/n$ 发散）。在三维情况下，预解算子是紧的但不是Hilbert-Schmidt的（ $\lambda_n \sim cn^{2/3}$ ，所以 $s_n \sim n^{-2/3}$ ，且 $\sum n^{-4/3} < \infty$ ，实际上在三维情况下它是Hilbert-Schmidt的）。域维度、Weyl渐近性和预解算子的Schatten类成员之间的精确关系是谱几何和算子理想之间的一个美丽的接口。

数值算例：积分算子的奇异值衰减#

把"紧⇒奇异值趋零"压成具体的衰减率。考虑 $$L^2[0, 1]$$ 上的 Volterra 算子 $(Vf)(x) = \int_0^x f(y)\,dy$ 。

$$V$$ 是紧的： 它把单位球映到一致 Lipschitz 族（ $|Vf(x) - Vf(y)| \leq |x - y| \cdot \|f\|_2$ 由 Cauchy-Schwarz），由 Arzelà-Ascoli 紧。

奇异值： $$V$$ 的伴随 $V^* g(x) = \int_x^1 g(y)\,dy$ 。 $V^* V f(x) = \int_x^1 \int_0^y f(z)\,dz\,dy$ 化简为 $\int_0^1 \min(x, y)(1 - \max(x, y))/...$ （实际计算给出核 $K(x, y) = \min(1 - x, 1 - y) \cdot$ 修正项）。直接做谱分析： $$V^* V$$ 的特征值是 $1/(\pi(2n - 1)/2)^2 = 4/((2n-1)\pi)^2$ for $n = 1, 2, \ldots$ 。所以 $$V$$ 的奇异值是 $s_n(V) = 2/((2n - 1)\pi)$ 。

具体数： $s_1 = 2/\pi \approx 0.6366$ 、 $s_2 = 2/(3\pi) \approx 0.2122$ 、 $s_3 = 2/(5\pi) \approx 0.1273$ 、 $s_{10} = 2/(19\pi) \approx 0.0335$ 、 $s_{100} = 2/(199\pi) \approx 0.0032$ 。每个奇异值都比前一个小，但下降率只是 $$1/n$$ ：奇异值是 Hilbert-Schmidt（ $\sum s_n^2 = \sum 4/((2n-1)\pi)^2 = 1/2$ 收敛）但不是迹类（ $\sum s_n = \sum 2/((2n-1)\pi)$ 发散）。

对照： 同一空间上的 Hilbert-Schmidt 核算子 $K f(x) = \int_0^1 e^{-(x-y)^2/\sigma^2} f(y)\,dy$ （高斯核）的奇异值以指数 $e^{-cn^2}$ 衰减，比 $$V$$ 快得多，是迹类的。“紧"作为一个二元属性区分不出这两种算子，但奇异值的衰减率精细地分类它们： $\ell^p$ 类（ $\sum s_n^p < \infty$ ）形成嵌套的 Schatten 理想 $$S^p$$ ， $$p = 1$$ 是迹类、 $$p = 2$$ 是 Hilbert-Schmidt、 $p \to \infty$ 退化到一般紧算子。

反例：紧 vs 有界，差距在哪里？#

紧算子是有界算子的真子集，但具体哪些有界算子不紧？

反例 1：恒等算子 $I: \ell^2 \to \ell^2$ 。范数 $\|I\| = 1$ ，完美有界。但 $I(B_{\ell^2}) = B_{\ell^2}$ 是闭单位球，本身不紧（ $$e_n - e_m$$ 距离 $\sqrt{2}$ ，没有收敛子列）。所以 $$I$$ 不紧。Riesz 引理把这个反例升级成定理：在任何无穷维 Banach 空间上恒等算子都不紧。

反例 2：右移位 $S: \ell^2 \to \ell^2$ ， $S(x_1, x_2, \ldots) = (0, x_1, x_2, \ldots)$ 。 $\|S\| = 1$ 是等距。但 $S e_n = e_{n+1}$ ，所以 $\{S e_n\}$ 没有收敛子列， $$S$$ 不紧。等距不紧；保范数的算子绝不紧（除非空间有限维）。

反例 3： $$L^2[0,1]$$ 上的乘法算子 $$M_a f(t) = a(t) f(t)$$ ， $a \in L^\infty$ 。 $\|M_a\| = \|a\|_\infty$ 有界。如果 $$a$$ 在 $$[0,1]$$ 上不退化（即 $|a(t)| \geq c > 0$ 几乎处处）， $$M_a$$ 可逆，所以不紧。具体： $$a(t) = 1$$ 给出 $$M_a = I$$ 不紧； $$a(t) = t$$ 给出可逆乘法算子也不紧（连续谱整段 $$[0,1]$$ ）。

模式： 紧⇒ 谱只能有可数个非零点，每个有限维特征空间，零是唯一可能的聚点。任何"谱有连续部分"或"恒等型"的有界算子都不紧。这条简洁的对偶（紧 vs 有连续谱）是第八篇谱定理把"原子"和"扩散"区分开的具体内容。

常见陷阱：紧不蕴含 Hilbert-Schmidt 不蕴含迹类#

紧算子分了好几个嵌套的子类，新手容易把它们混为一谈。

层次：迹类 $\subset$ Hilbert-Schmidt $\subset$ 紧 $\subset$ 有界。每层都是真包含。

具体反例（在 $\ell^2$ 上）：取对角算子 $$D x = (s_n x_n)$$ 其中 $$s_n$$ 是奇异值序列。

$$s_n = 1/n$$ ： $\sum s_n = +\infty$ （不迹类）， $\sum s_n^2 = \pi^2/6 < \infty$ （Hilbert-Schmidt），紧。
$s_n = 1/\sqrt{n \log n}$ （ $n \geq 2$ ）： $\sum s_n^2 = \sum 1/(n \log n) = +\infty$ （非 Hilbert-Schmidt），但 $s_n \to 0$ （紧）。
$s_n = 1/\sqrt{n}$ ： $\sum s_n^2 = \sum 1/n = +\infty$ （非 Hilbert-Schmidt）， $s_n \to 0$ （紧）。

每次出现"迹"或"行列式"或"Schatten 类"时都要核对算子是否在对应的子类里，紧不够。第十一篇里 $$H^k$$ 嵌入 $$L^2$$ 的紧性会用到这条层次：在低维区域上嵌入是迹类，高维则只是 Hilbert-Schmidt 或一般紧。

下一步#

紧自伴算子的谱定理给出了完全对角化，但只适用于紧算子。数学物理中的大多数算子（微分算子、乘法算子、量子力学中的位置和动量算子）都不是紧的。它们的谱可能有连续部分，它们的“特征向量”可能不是真正的 Hilbert 空间元素（例如动量算子的平面波 $e^{ikx}$ ，不在 $$L^2$$ 中），并且求和 $\sum \lambda_n \langle \cdot, e_n\rangle e_n$ 必须替换为针对谱测度的积分 $\int \lambda\,dE(\lambda)$ 。

下一篇文章将把谱理论推广到一般的有界自伴算子。紧的情况会重新出现，作为谱测度纯粹是原子的特殊情况（在特征值处的一系列点质量）。乘法算子 $$Mf(t) = tf(t)$$ 在 $$L^2[0,1]$$ 上是一个极端例子：纯连续谱，完全没有特征值，谱测度绝对连续于 Lebesgue 测度。在这两个极端之间，存在具有混合谱的算子：阈值以下的离散特征值，阈值以上的连续谱，这正是量子力学哈密顿算子的结构（电离能以下的束缚态，电离能以上的散射态）。谱定理将所有这些情况统一在一个框架中。

第七篇这里准备好了三件事，会被第八篇直接用到：紧自伴算子谱可以排成趋零数列、Mercer 表示给出核函数与正交基的对应、奇异值分解适用于一般紧算子。第八篇会把这些“原子型”谱测度的情形推广到允许连续部分的一般谱测度，并把 Mercer 类型的核展开换成投影值测度积分。这是从有限维线性代数过渡到一般自共轭算子谱论的最后一段台阶。

这是泛函分析系列文章的第 7 部分（共 12 篇）。

泛函分析（七）：紧算子——通往有限维的桥梁

定义、例子和有限秩逼近#

紧自伴算子的谱定理#

Fredholm 选择定理#

奇异值、希尔伯特-施密特和迹类#

紧算子与反问题#

紧性判据与Rellich-Kondrachov嵌入#

数值算例：积分算子的奇异值衰减#

反例：紧 vs 有界，差距在哪里？#

常见陷阱：紧不蕴含 Hilbert-Schmidt 不蕴含迹类#

下一步#

泛函分析 12 篇

读有所得？

定义、例子和有限秩逼近#

紧自伴算子的谱定理#

Fredholm 选择定理#

奇异值、希尔伯特-施密特和迹类#

紧算子与反问题#

紧性判据与Rellich-Kondrachov嵌入#

数值算例：积分算子的奇异值衰减#

反例：紧 vs 有界，差距在哪里？#

常见陷阱：紧不蕴含 Hilbert-Schmidt 不蕴含迹类#

下一步#

泛函分析 12 篇

读有所得？

继续阅读

微分几何（十二）：纤维丛、特征类与物理学

微分几何（十）：黎曼几何 — 度量、联络和平行移动

微分几何（五）：高斯-博内定理 —— 几何与拓扑的交汇点