前沿应用与总结 -- 量子计算、GNN、大模型,与十八章回望
系列终章:把量子门、图卷积、注意力、LoRA、张量网络、矩阵指数、随机矩阵到自由概率、拓扑数据分析这些前沿话题串成一条线,再回望整套书十八章的依赖图与几何/数值/计算三角形。
我们一起走完了线性代数的漫长旅程。从平面上的箭头出发,最后走到了量子计算机的逻辑门、大语言模型的内部结构和数据云的拓扑形状。这一路最值得记住的事情——也是这套书一直想让你看到的——就是同样一小撮思想在反复出现:向量是状态,矩阵是变换,分解是变换内部的结构,范数告诉你什么时候可以信任你的计算。一旦把这套循环内化下来,再看那些"前沿",它们就不再像异国他乡,而更像是你已经会说的语言里的另一种方言。
最后这一章做两件事。第一件,把前沿一站一站走过去:量子信息、图神经网络、大模型、张量网络、随机数值线性代数、作为通往李代数桥梁的矩阵指数、自由概率,以及拓扑数据分析的预览,并指出每一处骨架里的线性代数。第二件,退后一步,把整本书十八章铺开成一张图,标出贯穿始终的主题、最重要的几个定理,以及一份继续往前走的路标。
走完这一章你会带走什么
- 量子计算的酉视角:量子比特是单位向量,量子门是酉矩阵,纠缠从 CNOT 来。
- 为什么图拉普拉斯就是网络上的傅里叶基,以及 GCN 为什么是它的一阶切比雪夫近似。
- Transformer 数学的浓缩版:注意力是软检索,RoPE 是复数旋转,LoRA 是低秩自适应。
- 稀疏注意力、线性注意力、量化、剪枝——同一个矩阵故事,但加上了内存预算。
- 张量网络、随机化 SVD、NeRF、PINN、Neural ODE,都是前面章节的自然延伸。
- 一张完整的十八章地图,一个反复出现的"几何 / 数值 / 计算"三角形,以及继续学习的资源。
建议预备知识: 全系列都比较熟,特别是特征分解(第 6 章)、SVD(第 9 章)、张量(第 13 章)、随机矩阵(第 14 章)和深度学习章节(第 16 章)。
十八章的依赖图

在向前看之前,先回头看。上面这张图就是整个系列的依赖图:蓝色是基础(向量、向量空间、线性变换),紫色是结构性结果(行列式、线性方程组、特征值、正交性),绿色是两大分解(谱定理与 SVD),橙色是计算层(范数与条件数、矩阵微积分、稀疏、张量、随机矩阵),红色是应用三章(机器学习、深度学习、计算机视觉),最后这一章是深色。
请注意两件事。第一,这张图不是一条链,而是一张分层网络,多个早期章节会同时汇入到后面的某一章。光是 SVD(第 9 章)就为第 10、13、14、15、16、17、18 章供血。这不是巧合——SVD 是应用线性代数里最有用的一个定理,没有之一。第二,这一章并没有从空气里凭空冒出新的数学,它只是把你已经会的东西用在更大的对象上。
量子计算:最小尺度上的线性代数

量子比特就是单位向量
经典比特要么是 $|0\rangle$ 要么是 $|1\rangle$。量子比特是 $\mathbb{C}^2$ 里的一个单位向量:
$$ |\psi\rangle = \alpha|0\rangle + \beta|1\rangle, \qquad |\alpha|^2 + |\beta|^2 = 1, $$其中计算基为 $|0\rangle = \begin{bmatrix}1\\0\end{bmatrix}$、$|1\rangle = \begin{bmatrix}0\\1\end{bmatrix}$。图左边的 Bloch 球就是它的几何图像:北极是 $|0\rangle$,南极是 $|1\rangle$,球面上的其它点都是合法的量子态。把 $n$ 个量子比特做张量积,就得到了 $\mathbb{C}^{2^n}$ 中的单位向量——这就是量子算法所在的向量空间。
量子门就是酉矩阵
量子门是保单位范数的线性映射,也就是酉矩阵:$\mathbf{U}^{\dagger}\mathbf{U} = \mathbf{I}$。酉性保内积,从而保概率,这就是物理可逆性在线性代数里的根源。
Hadamard 门把基态搅成等概率叠加:
$$ \mathbf{H} = \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\\ 1 & -1\end{bmatrix}, \qquad \mathbf{H}|0\rangle = \tfrac{1}{\sqrt{2}}(|0\rangle + |1\rangle). $$图中间那个柱状图就是它的效果:原本概率全压在 $|0\rangle$ 上的态,被打散成两个基态各 $1/\sqrt{2}$ 的振幅。三个 Pauli 矩阵
$$ \mathbf{X} = \begin{bmatrix}0 & 1\\ 1 & 0\end{bmatrix},\quad \mathbf{Y} = \begin{bmatrix}0 & -i\\ i & 0\end{bmatrix},\quad \mathbf{Z} = \begin{bmatrix}1 & 0\\ 0 & -1\end{bmatrix} $$是三个最基本的旋转,而任意单量子比特门都是矩阵指数 $e^{-i\theta(\mathbf{n}\cdot\boldsymbol{\sigma})/2}$——这一点我们在李代数那一节会再回到。
双量子比特的 CNOT 门
$$ \text{CNOT} = \begin{bmatrix}1&0&0&0\\0&1&0&0\\0&0&0&1\\0&0&1&0\end{bmatrix} $$是制造纠缠的关键。先对第一个比特作用 Hadamard,再作用 CNOT,本来分离的 $|00\rangle$ 就变成了 Bell 态:
$$ |\Phi^+\rangle = \tfrac{1}{\sqrt{2}}(|00\rangle + |11\rangle). $$图右边正是这个过程,每经过一道门后的振幅向量都画了出来。无论你怎么挑两个单比特态,它们的张量积都不会等于 $|\Phi^+\rangle$——纠缠是多比特向量空间独有的性质,经典世界没有对应物。
两个有代表性的量子算法
Grover 搜索。 在 $N$ 个无序元素中找一个目标,量子算法只需要 $O(\sqrt{N})$ 次询问,而经典需要 $O(N)$ 次。整个算法本质是两次反射:oracle 翻转目标态的相位,扩散算子 $2|\psi\rangle\langle\psi| - \mathbf{I}$ 关于均匀叠加态做反射。两次反射合起来就是一个旋转,转 $O(\sqrt{N})$ 圈后,振幅就转到了目标态上。这是第 7 章正交矩阵的故事,搬到了 $\mathbb{C}^N$ 里。
Shor 算法。 它能在多项式时间内分解大整数,靠的是量子傅里叶变换 (QFT)。QFT 还是你熟悉的那个 DFT 矩阵,但作用在振幅向量上只需要 $O(n^2)$ 个门,而不是经典的 $O(n 2^n)$ 次乘法——这指数级的加速正是 RSA 加密被量子计算威胁的根源。
图神经网络:网络上的线性代数
一张图,三个矩阵
图 $G = (V, E)$ 上你会反复见到三个矩阵:邻接矩阵 $\mathbf{A}$($A_{ij}=1$ 当且仅当 $i \sim j$)、对角的度数矩阵 $\mathbf{D}$,以及图拉普拉斯 $\mathbf{L} = \mathbf{D} - \mathbf{A}$。$\mathbf{L}$ 是半正定的,全 1 向量是它的零特征向量,零特征值的重数等于连通分量数,并且
$$ \mathbf{x}^{T}\mathbf{L}\mathbf{x} = \sum_{(i,j)\in E}(x_i - x_j)^2 $$——这正好是信号 $\mathbf{x}$ 在图上的"光滑度"度量。归一化拉普拉斯 $\tilde{\mathbf{L}} = \mathbf{D}^{-1/2}\mathbf{L}\mathbf{D}^{-1/2}$ 的特征值落在 $[0, 2]$。
图上的傅里叶变换
把 $\mathbf{L}$ 做特征分解 $\mathbf{L} = \mathbf{U}\boldsymbol{\Lambda}\mathbf{U}^{T}$,得到的基 $\mathbf{U}$ 上"频率"就有意义了:小特征值对应缓变的特征向量(相邻节点取值接近),大特征值对应剧烈震荡的特征向量。图傅里叶变换就定义为 $\hat{\mathbf{x}} = \mathbf{U}^{T}\mathbf{x}$,谱滤波就是在这个基下做逐元素乘法。谱聚类——用最低的几个非平凡特征向量做嵌入再 k-means——就是同一个想法:在低频基下"看起来像同一类"的节点就是同一个社区。
从谱滤波到 GCN
直接做谱卷积要 $O(n^3)$,因为要算特征分解。ChebNet 改用关于 $\mathbf{L}$ 的 $K$ 阶切比雪夫多项式做滤波器,只需要 $K$ 跳邻居的信息,复杂度降到 $O(K|E|)$。再取 $K = 1$ 加一些再归一化的小技巧,就得到了 GCN 层:
$$ \mathbf{H}' = \sigma\!\left(\tilde{\mathbf{D}}^{-1/2}\tilde{\mathbf{A}}\tilde{\mathbf{D}}^{-1/2}\,\mathbf{H}\,\mathbf{W}\right), $$其中 $\tilde{\mathbf{A}} = \mathbf{A} + \mathbf{I}$ 加了自环。从右往左读这个公式就是"先做线性变换 $\mathbf{W}$,再聚合归一化后的邻居特征,最后过非线性"——一行写完的消息传递。它是分子性质预测(原子作节点、化学键作边)、推荐系统(用户-物品二部图)以及 AlphaFold 结构侧的核心机件。
大模型时代的线性代数:注意力是戴了帽子的矩阵乘法
自注意力是软检索
现代 Transformer 的发动机就是
$$ \text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^{T}}{\sqrt{d_k}}\right)\mathbf{V}. $$$n \times n$ 矩阵 $\mathbf{Q}\mathbf{K}^{T}$ 装的是所有 token 两两之间的相似度,softmax 把每一行变成对所有 key 的概率分布,再乘 $\mathbf{V}$ 就是按这个分布去加权求和 value。几何上:query 是"我在找什么",key 是"我有什么",value 是"我能给什么"。注意力就是可微分的数据库查询。多头注意力则是把这个操作并行地放在若干个学到的子空间里跑——这样一个头可以盯句法,另一个头可以盯共指。
用旋转表示位置
纯自注意力是置换等变的,对语言来说这是灾难。要解决就得把位置信息塞进去。经典的正弦编码 $PE_{(\text{pos},2i)} = \sin(\text{pos}/10000^{2i/d})$ 有一个漂亮的性质:$PE_{(\text{pos}+k)}$ 是 $PE_{(\text{pos})}$ 的线性函数,相对位置被编码成了一个旋转。现代的 **RoPE(旋转位置编码)**把这件事推到底:它把每一对坐标按位置成比例地旋转,使得 query 与 key 的内积只依赖相对位置。RoPE 字面意义上就是复数乘法。
LoRA:低秩自适应
大模型时代最实用的一个想法是:微调本质上是低秩的。LoRA 不去更新 $\mathbf{W}_0 \in \mathbb{R}^{d_\text{out}\times d_\text{in}}$,而是把它冻住,只学一个低秩增量:
$$ \mathbf{W} = \mathbf{W}_0 + \mathbf{B}\mathbf{A}, \qquad \mathbf{B} \in \mathbb{R}^{d_\text{out}\times r}, \quad \mathbf{A} \in \mathbb{R}^{r\times d_\text{in}}, \quad r \ll d. $$取 $d = 4096$、$r = 8$,可训练参数减少 256 倍;推理时还能把 $\mathbf{B}\mathbf{A}$ 折回 $\mathbf{W}_0$,零开销。QLoRA 进一步把 $\mathbf{W}_0$ 用 4-bit 量化存起来,于是单张消费级 GPU 就能微调 65B 模型。
KV 缓存与内存的代价
自回归生成时,过去 token 的 K、V 不会再变,把它们缓存下来,每生成一个新 token 就只用算它自己的 Q/K/V,再去做注意力。代价是 $O(2 \cdot L \cdot n \cdot d)$ 的显存占用($L$ 是层数),长上下文场景下这往往是真正的瓶颈。这是工业级的"以空间换时间",而清楚地知道哪个张量沿哪根轴变大,往往就是模型能跑和跑不动的差别。
稀疏与高效计算
稀疏注意力、线性注意力与近似
标准注意力对序列长度是 $O(n^2)$,对长文档或长视频很快就吃不消。稀疏注意力把 $\mathbf{Q}\mathbf{K}^{T}$ 的大部分位置置成 $-\infty$,可以是局部窗口(Longformer)、定步长(Sparse Transformer)或者局部加少量全局 token(BigBird)。线性注意力走另一条路:用核映射 $\phi$ 替掉 softmax,使
$$ \text{Attn}(\mathbf{Q},\mathbf{K},\mathbf{V}) \approx \phi(\mathbf{Q})\bigl(\phi(\mathbf{K})^{T}\mathbf{V}\bigr), $$括号里那一项是 $d \times d$ 的小矩阵,复杂度从 $O(n^2 d)$ 降到 $O(nd^2)$。
量化
对称 INT$b$ 量化把 $w$ 映成 $\text{round}(w/s)$,$s$ 是按张量或者按通道的尺度。FP16 转 INT4,显存省 4 倍;硬件支持的话还能直接加速。原则化的版本是 GPTQ:把量化看作以经验 Hessian 为权重的、按层进行的加权矩阵逼近问题,再用 Cholesky 做更新。本质上还是一个低精度版的矩阵逼近。
剪枝
把幅值小的权重直接置零。非结构化剪枝可以做到 90% 以上的稀疏率,但很难加速;结构化剪枝(整行、整列、整头)对硬件更友好。NVIDIA Ampere 提供了原生的 2:4 稀疏张量核,让结构化稀疏矩乘以全速运行。CSR、CSC 这些压缩存储格式还是第 12 章的老词汇,只不过换上了 2024 年的衣服。
张量网络:把指数级大的张量分解掉

一个有 $N$ 个指标、每个指标取 $d$ 个值的张量有 $d^N$ 个元素,根本存不下。张量网络是处理这类对象的合适语言,并且如图所示,它有一套漂亮的图形化演算:每个节点是一张小张量,每条相连的边是一根被收缩掉的"键",剩下来悬空的腿就是物理指标。
最简单的张量网络是矩阵乘积态 (MPS,也叫 Tensor Train):
$$ \mathcal{X}(i_1,\ldots,i_N) = \mathbf{G}_1(i_1)\,\mathbf{G}_2(i_2) \cdots \mathbf{G}_N(i_N), $$每个 $\mathbf{G}_k(i_k)$ 是一个小矩阵。存储从 $d^N$ 降到 $N d r^2$,$r$ 是键维数。MPS 是量子多体物理 DMRG 算法背后的结构,也以"随机张量火车草图"的形式出现在机器学习压缩里。PEPS 把 MPS 推广到二维格子;MERA 则把同构和解纠缠器层层堆叠起来,能够刻画临界(无尺度)系统。同一张图也能解释为什么深度网络可以指数级高效地表示函数:每一层就是一次重整化。
矩阵指数与李代数的小窥视

矩阵指数 $e^{\mathbf{A}} = \sum_{k\ge 0}\mathbf{A}^k/k!$ 是从线性代数走向连续对称性的桥梁。对一个反对称矩阵 $\mathbf{K} \in \mathfrak{so}(3)$,曲线 $t \mapsto e^{t\mathbf{K}}$ 是 $\mathbb{R}^3$ 旋转群中的一个单参数子群。上面这张图画的就是 so(3) 的三个基 $L_x, L_y, L_z$ 分别作用在同一个起始点上得到的轨迹:每条轨迹都是单位球上的一个大圆,起始点处的切向量正是各自的生成元。
请记住三件事。第一,特征值分解让矩阵指数变得可算:若 $\mathbf{A} = \mathbf{V}\boldsymbol{\Lambda}\mathbf{V}^{-1}$,则 $e^{\mathbf{A}} = \mathbf{V}\,\text{diag}(e^{\lambda_i})\,\mathbf{V}^{-1}$。第二,单量子比特门正是用矩阵指数参数化的:$e^{-i\theta(\mathbf{n}\cdot\boldsymbol{\sigma})/2}$,所以量子和经典的旋转其实是同一个故事。第三,Neural ODE 把隐状态写成 $d\mathbf{h}/dt = f(\mathbf{h},t,\theta)$,欧拉离散化就是 ResNet 的残差连接;积分这条 ODE,局部上正是 Jacobian 的矩阵指数。
从随机矩阵走向自由概率

第 14 章告诉过你:高维随机不是混乱,而是伪装成混乱的规律。图左边再次出现了两条普适律:宽高比 $\gamma = p/n$ 的样本协方差矩阵,其特征值分布服从 Marchenko-Pastur 律,并在 $(1\pm\sqrt{\gamma})^2$ 处有锐利的谱边界。
右边这一格再迈一步:若 $W_1$ 与 $W_2$ 是两个独立的大 Wigner 矩阵,它们渐近地满足"自由独立"——这是非交换情形下的独立——并且 $W_1 + W_2$ 的谱仍然是一个半圆律,方差为两者方差之和。这就是自由中心极限定理,并由此衍生出一整套演算($R$ 变换),让我们能解析地预测随机矩阵和与积的谱。自由概率如今已经是神经网络理论、深度集成、高维统计里的实用工具。
拓扑数据分析:能扛过噪声的形状

有时候数据里真正的结构既不是聚类,也不是低维子空间,而是洞。上图展示了一个采样自带噪声圆环的点云和它的持续图 (persistence diagram)——这是 TDA 最核心的对象。让半径 $r$ 从 0 增长,每个 $r$ 上构造 Vietoris-Rips 复形(任两点距离 $\le r$ 就连边),追踪每个拓扑特征出生和死亡的时刻,把每个特征画成 $(\text{birth}, \text{death})$ 上的一个点。
短命的点贴着对角线,那是噪声。长寿的点——图里那个明显高于对角线的菱形——是真实的特征。这里有一个 $H_1$ 点远高于对角线:那就是那个洞,它能存活就是因为底层形状真的是环。整条流水线背后还是线性代数:持续同调是把一个边界矩阵在 $\mathbb{F}_2$ 上做约化,本质上是带巧妙主元规则的高斯消元。TDA 现在出现在材料科学、生物学,以及越来越多对神经网络损失曲面的研究里。
其它前沿方向,每个一段话
随机数值线性代数。 随机化 SVD 的复杂度是 $O(mnk)$ 而不是 $O(mn\min(m,n))$,做法是用一个高斯随机矩阵把列空间"草图化"再做一个小的稠密 SVD。理论依据是 Johnson-Lindenstrauss 引理:随机投影近似保距。草图化如今支撑了现代预条件子、大规模最小二乘、对数行列式估计。
隐式神经表示。 NeRF(神经辐射场)把一个 3D 场景表示为从 $(\mathbf{x}, \mathbf{d})$ 到 (密度, 颜色) 的 MLP。傅里叶特征位置编码——和 Transformer 的位置编码同源——是让 MLP 学到高频细节的关键。
神经 PDE 求解器。 PINN 用神经网络参数化 PDE 的解,把 PDE 残差加进损失。自动微分(链式法则的实例,本质就是矩阵乘法)让任意阶导数都是免费的。Neural ODE 干脆把网络本身视为连续动力系统。
等变网络与几何深度学习。 把对称群直接做进结构里:用群卷积替掉普通的矩阵乘法。SO(3) 等变网络如今已经是分子建模的标配。
十八章一表回顾
| 章 | 主题 | 核心洞见 |
|---|---|---|
| 1 | 向量 | 既是带方向的量,也是任何向量空间(函数、矩阵、信号)的元素。 |
| 2 | 向量空间 | 八条公理精确划定了"线性组合有意义"的范围。 |
| 3 | 线性变换 | 一旦选定基,矩阵和线性映射一一对应。 |
| 4 | 行列式 | 有向体积的缩放因子;为零当且仅当奇异。 |
| 5 | 线性方程组 | 解的结构由四个基本子空间决定。 |
| 6 | 特征值 | 特征向量是变换的不变方向。 |
| 7 | 正交性 | 内积给出长度与角度;正交基在数值上最稳。 |
| 8 | 对称矩阵 | 实对称矩阵可以正交对角化,特征值全为实。 |
| 9 | SVD | 任何矩阵都分解成 旋转 - 非负缩放 - 旋转。 |
| 10 | 范数与条件数 | 条件数是输入误差被放大的倍率。 |
| 11 | 矩阵微积分 | 梯度是上升最快的方向;链式法则就是矩阵乘积。 |
| 12 | 稀疏 | L1 范数诱导稀疏;压缩感知打破奈奎斯特。 |
| 13 | 张量 | 多指标数组;分解暴露隐藏结构。 |
| 14 | 随机矩阵 | 高维随机有惊人的规律性(Wigner 半圆律、MP 律)。 |
| 15 | 机器学习 | PCA 是方差最大化;核技巧是隐式的特征映射。 |
| 16 | 深度学习 | 神经网络 = 分层矩阵乘法 + 非线性。 |
| 17 | 计算机视觉 | 相机是投影矩阵;三维重建是反问题。 |
| 18 | 前沿 | 量子门是酉,图卷积是拉普拉斯滤波。 |
最重要的几个定理
- 秩-零化度定理。 $\dim\text{null}(\mathbf{A}) + \text{rank}(\mathbf{A}) = n$。
- 谱定理。 实对称矩阵可以正交对角化,特征值全为实。
- SVD 存在性。 任意 $m\times n$ 矩阵都有 SVD。
- Eckart-Young 定理。 截断 SVD 是任意酉不变范数下的最优低秩逼近。
- Johnson-Lindenstrauss 引理。 高维点可以随机投影到低维,距离失真受控。
- Cayley-Hamilton 定理。 任何矩阵都满足自身的特征多项式。
- Courant-Fischer 极小极大原理。 对称矩阵的特征值是 Rayleigh 商在子空间上的极值。
反复出现的三角形:几何 / 数值 / 计算

如果让我用一张图概括整套书,就是这个三角形。几何提供直觉——向量是箭头,矩阵是空间的变换,特征向量是不变方向,Bloch 球。数值告诉你什么时候可以信任你的计算——范数、条件数、稳定算法、浮点的现实。计算是让上面这一切在工程上有用的东西——稀疏算子、随机化方法、GPU 张量核、低精度算术。
这三根支柱不是三个孤立的学科,而是互相支撑的。谱理论把几何和数值连起来:矩阵的谱既描述了它的几何性格,又告诉你它对扰动有多敏感。草图化把几何和计算连起来:保住距离就保住了几何,规模也变小了。低精度算术把数值和计算连起来:你交出比特、换来吞吐,而你需要靠条件数知道自己最多能丢多少比特。
SVD 坐在三角形的正中央,因为这三根支柱对它意见一致。几何上,它是看任何线性映射的"正确视角"。数值上,它是我们最稳的分解。计算上,它有一个能扩展到巨型数据的随机化版本。如果这套书你只能记住一句话,那就是:实在拿不准的时候,做 SVD。
学习建议与资源
怎么继续往前走
可视化。 GeoGebra、Manim(3Blue1Brown 在用的库),或者干脆 NumPy + matplotlib 自己画。看到一个矩阵把网格扭成什么样子,比把同一个公式再读一遍学到的东西多得多。
用小例子手算。 线性代数有相当大的一部分,如果你不在纸上手推过一次 $3\times 3$ 的 Gram-Schmidt 或 $4\times 4$ 的 SVD,你是看不见的。手算一次。
永远问"为什么"。 行列式为什么这么定义?SVD 为什么总是实的?GCN 层为什么要加自环?拒绝接受"公式就是这样",这是会用线性代数和真正理解线性代数的分水岭。
每个定理都连到一个应用。 特征分解:PageRank。SVD:潜在语义分析、推荐系统、NeRF 相机姿态。稀疏:压缩感知 MRI。随机矩阵:金融里的协方差清洗。这些联系不是后补的脚注,它们就是这门学科推进的方式。
阅读清单
经典教材。
- Gilbert Strang 《Introduction to Linear Algebra》——直觉优先,最经典的入门书。
- Sheldon Axler 《Linear Algebra Done Right》——优雅、刻意避开行列式的抽象视角。
- Trefethen & Bau 《Numerical Linear Algebra》——学好数值这一面的标准路径。
- Golub & Van Loan 《Matrix Computations》——工程师的工具书。
- Strang 《Linear Algebra and Learning from Data》——通往机器学习的桥梁。
前沿读物。
- Nielsen & Chuang 《Quantum Computation and Quantum Information》——量子计算的标准教材。
- Bronstein 等 《Geometric Deep Learning》——把等变性、GNN、Transformer 放在同一框架下。
- Halko, Martinsson, Tropp “Finding Structure with Randomness”——随机化数值线性代数宣言。
- Edelsbrunner & Harer 《Computational Topology》——TDA 的合适入门。
在线课程。 油管上 Strang 的 MIT 18.06;3Blue1Brown 的 Essence of Linear Algebra;Stanford CS229 偏 ML 视角。
软件。 日常用 NumPy / SciPy 和 PyTorch / JAX;做数值研究可以试试 Julia;做动画可以用 Manim。
练习题
量子计算
- 计算 $\mathbf{H}^{\dagger}\mathbf{H}$ 验证 Hadamard 矩阵是酉的。
- 计算 $\mathbf{H}|0\rangle$ 与 $\mathbf{H}|1\rangle$,把它们标到 Bloch 球上。
- 证明 Pauli 矩阵反对易(如 $\mathbf{X}\mathbf{Y} = -\mathbf{Y}\mathbf{X}$),并验证 $\mathbf{X}^2 = \mathbf{Y}^2 = \mathbf{Z}^2 = \mathbf{I}$。
- 证明 Bell 态 $\tfrac{1}{\sqrt{2}}(|00\rangle + |11\rangle)$ 不能写成两个单比特态的张量积 $|\phi\rangle \otimes |\psi\rangle$。
- 设计一个量子电路,将 $|00\rangle$ 变成 $\tfrac{1}{\sqrt{2}}(|01\rangle + |10\rangle)$。
图神经网络
- 对四节点环 $1{-}2,\ 1{-}3,\ 2{-}4,\ 3{-}4$,写出 $\mathbf{A}$、$\mathbf{D}$、$\mathbf{L}$。
- 算出上面那张图拉普拉斯的特征值,验证最小是 0,并解释它的重数告诉你什么。
- 证明 $\mathbf{x}^{T}\mathbf{L}\mathbf{x} = \sum_{(i,j)\in E}(x_i - x_j)^2$,并说说它的物理意义。
- 证明归一化拉普拉斯的特征值都在 $[0, 2]$。
- 如果在 GCN 层 $\mathbf{H}' = \sigma(\mathbf{D}^{-1/2}\mathbf{A}\mathbf{D}^{-1/2}\mathbf{H}\mathbf{W})$ 里漏掉自环,会出什么问题?
大模型与高效计算
- 缩放点积注意力里如果去掉 $\sqrt{d_k}$,当 $d_k$ 很大时会发生什么?
- 取 $d_\text{in} = d_\text{out} = 4096$、秩 $r = 16$,分别计算原层、LoRA 适配器的参数量,以及减少比例。
- 序列长度 $n$、$L$ 层、每层 K/V 维度 $d$,推导 KV 缓存的大小。
- 对取值在 $[-2.5, 2.5]$ 的张量,设计 INT8 对称量化方案,写出量化和反量化公式。
- 滑动窗口大小 $w$ 的稀疏注意力的渐近复杂度是多少?相比 $O(n^2)$ 节省多少?
前沿话题
- 证明一般情况下 $e^{\mathbf{A}}e^{\mathbf{B}} \ne e^{\mathbf{A} + \mathbf{B}}$,并说明在 $\mathbf{A}\mathbf{B} = \mathbf{B}\mathbf{A}$ 时等号成立。
- MPS 取 $N = 50$、物理维 $d = 4$、键维 $r = 32$,算出参数量并和 $d^N$ 元的稠密张量比较。
- 实现随机化 SVD:抽高斯 $\boldsymbol{\Omega}$,构造 $\mathbf{Y} = \mathbf{A}\boldsymbol{\Omega}$,做 thin QR,再对小投影矩阵做 SVD。
- 从一个圆上采 100 个点,从一个圆盘上采 100 个点,分别计算持续图(任意 TDA 库都行),解释 $H_1$ 的差异。
- 把 GNN 与 Transformer 结合做分子性质预测:描述结构、各部分的归纳偏置,以及交叉注意力放在哪里。
编程实践
- 用 NumPy 实现 Hadamard 与 CNOT 门,模拟 $|00\rangle \xrightarrow{\mathbf{H}\otimes\mathbf{I}} \xrightarrow{\text{CNOT}}$。
- 用 PyTorch 实现一层 GCN,在 Karate Club 上做节点分类。
- 在一个小线性层上实现 LoRA,验证当 $r = \min(d_\text{in}, d_\text{out})$ 时它等价于全量更新。
- 实现 INT8 对称量化与反量化,在某个预训练线性层的权重上度量按通道的误差。
- 在不同序列长度下比较标准注意力与滑动窗口注意力的实际运行时间,画出对比图。
一段简短的告别
线性代数是一门古老而又年轻的学科。古老,是因为它的核心思想已经稳定了两个世纪;年轻,是因为每一代新技术都在这里找到新的用法——19 世纪的方程组求解、20 世纪的量子力学与运筹学、21 世纪的机器学习与大规模推理。
这种连续性才是真正的重点。量子门是酉矩阵;图卷积是拉普拉斯滤波;注意力是 $\mathbf{Q}\mathbf{K}^{T}$ 的 softmax 再乘 $\mathbf{V}$;LoRA 是低秩更新;张量网络分解掉指数;NeRF 与 PINN 倚赖矩阵指数;自由概率把中心极限定理推到非交换矩阵上。这些都不是异国他乡的东西。它们是同一套词汇被搬到新的尺度或新的语境里。
如果这套书完成了它的任务,那么下一次你看到一篇标题里写着"谱"、“张量"或者"注意力"的论文时,它对你应该不再是吓人的东西,而是一个老朋友。打开它。在里面找矩阵,找分解,找条件数。数学会让步。
谢谢你陪我走完这十八章。系列的结束不是旅程的结束——它是你自己旅程的开始。
参考资料
- Nielsen, M. A., and Chuang, I. L. Quantum Computation and Quantum Information. Cambridge University Press.
- Kipf, T. N., and Welling, M. “Semi-Supervised Classification with Graph Convolutional Networks.” ICLR 2017.
- Bronstein, M., Bruna, J., Cohen, T., and Velickovic, P. Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges. 2021.
- Vaswani, A., et al. “Attention is All You Need.” NeurIPS 2017.
- Su, J., et al. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” 2021.
- Hu, E., et al. “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR 2022.
- Dettmers, T., et al. “QLoRA: Efficient Finetuning of Quantized LLMs.” NeurIPS 2023.
- Frantar, E., et al. “GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers.” ICLR 2023.
- Halko, N., Martinsson, P.-G., and Tropp, J. A. “Finding Structure with Randomness.” SIAM Review, 2011.
- Mildenhall, B., et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.” ECCV 2020.
- Chen, R. T. Q., et al. “Neural Ordinary Differential Equations.” NeurIPS 2018.
- Orus, R. “A Practical Introduction to Tensor Networks.” Annals of Physics, 2014.
- Edelsbrunner, H., and Harer, J. Computational Topology: An Introduction. AMS, 2010.
- Voiculescu, D., Dykema, K. J., and Nica, A. Free Random Variables. AMS, 1992.
- Strang, G. Linear Algebra and Learning from Data. Wellesley-Cambridge Press, 2019.
系列导航
- 上一篇: 第十七章:计算机视觉中的线性代数
- 完整系列: 线性代数的本质(1–18)