系列 · 线性代数 · 第 18 篇

线性代数(十八):前沿应用与总结——量子计算、GNN、大模型,与十八章回望

系列终章:把量子门、图卷积、注意力、LoRA、张量网络、矩阵指数、随机矩阵到自由概率、拓扑数据分析这些前沿话题串成一条线,再回望整套书十八章的依赖图与几何/数值/计算三角形。

我们一同走过了线性代数的漫长旅程——从平面上的箭头出发,最终抵达量子计算机的逻辑门、大语言模型的核心机制,以及数据云的拓扑结构。贯穿始终、令人惊叹的一点是(也是本系列试图揭示的):同样的几个核心思想不断重现。向量是状态,矩阵是变换,分解揭示了变换内部的结构,范数则告诉你何时可以信任计算结果。一旦你内化了这个循环,所有所谓的“前沿”领域便不再像陌生国度,而更像是你早已掌握的语言所衍生出的新方言。

这最后一章做两件事:首先,带你逐一探访前沿领域——量子信息、图神经网络、大模型、张量网络、随机数值线性代数、作为李理论桥梁的矩阵指数、自由概率,以及拓扑数据分析,并指出每个领域背后的线性代数骨架;其次,退后一步,为你呈现完整的十八章地图,梳理反复出现的主题、最重要的定理,并指明一条继续前行的道路。

学完本章,你将带走

  • 量子计算的酉视角:量子比特是单位向量,量子门是酉矩阵,纠缠源于 CNOT。
  • 图拉普拉斯为何是网络的傅里叶基,GCN 又为何是一阶切比雪夫滤波器。
  • Transformer 数学的精髓:注意力即软检索,RoPE 即复数旋转,LoRA 即低秩自适应。
  • 稀疏注意力、线性注意力、量化、剪枝——同一个矩阵故事,只是加了内存预算的约束。
  • 张量网络、随机化 SVD、NeRF、PINNs、Neural ODEs,都是前文章节的自然延续。
  • 完整的十八章地图、“几何 / 数值 / 计算”这一反复出现的三角关系,以及进阶阅读清单。

先修要求: 熟悉整个系列内容,尤其是特征分解(第 6 章 )、SVD(第 9 章 )、张量(第 13 章 )、随机矩阵(第 14 章 )和深度学习章节(第 16 章 )。


线性代数(十八):前沿应用与总结——量子计算、GNN、大模型,与十八章回望 — 章节概览图

十八章的依赖图#

线性代数:十八章的依赖图

在展望未来之前,先回望来路。上图是本系列真实的依赖关系图:蓝色代表基础(向量、向量空间、线性映射),紫色代表结构性结果(行列式、线性方程组、特征值、正交性),绿色代表两大核心分解(谱定理与 SVD),琥珀色代表计算层(范数与条件数、矩阵微积分、稀疏性、张量、随机矩阵),红色代表应用章节(机器学习、深度学习、计算机视觉),而本章作为终章以深色标出。

请注意两点。其一,这张图并非一条线性链条,而是一个薄层网络,多个早期章节会同时汇入后续章节。仅 SVD(第 9 章 )就支撑了第 10、13、14、15、16、17 和 18 章。这绝非偶然——SVD 是应用线性代数中最有用的定理。其二,本章并未凭空引入新数学,而是将你已掌握的思想应用于更庞大的对象。


量子计算:最小尺度上的线性代数#

线性代数眼中的量子计算:状态、门、纠缠

量子比特即单位向量#

$$|\psi\rangle = \alpha|0\rangle + \beta|1\rangle, \qquad |\alpha|^2 + |\beta|^2 = 1,$$

其中计算基为 $|0\rangle = \begin{bmatrix}1\\0\end{bmatrix}$$|1\rangle = \begin{bmatrix}0\\1\end{bmatrix}$ 。图左侧的 Bloch 球给出了其几何图像:北极对应 $|0\rangle$ ,南极对应 $|1\rangle$ ,球面上任意一点都是合法的量子态。将 $n$ 个量子比特张量积,便得到 $\mathbb{C}^{2^n}$ 中的单位向量——这正是量子算法运行的向量空间。

量子门即酉矩阵#

量子门是一种保持单位范数的线性映射,这恰好就是酉矩阵的定义:$\mathbf{U}^{\dagger}\mathbf{U} = \mathbf{I}$ 。酉性保持内积不变,从而保证概率守恒——这是物理可逆性的线性代数根源。

$$\mathbf{H} = \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\\ 1 & -1\end{bmatrix}, \qquad \mathbf{H}|0\rangle = \tfrac{1}{\sqrt{2}}(|0\rangle + |1\rangle),$$ $$\mathbf{X} = \begin{bmatrix}0 & 1\\ 1 & 0\end{bmatrix},\quad \mathbf{Y} = \begin{bmatrix}0 & -i\\ i & 0\end{bmatrix},\quad \mathbf{Z} = \begin{bmatrix}1 & 0\\ 0 & -1\end{bmatrix}$$

是三种基本旋转操作。任意单量子比特门均可表示为矩阵指数 $e^{-i\theta(\mathbf{n}\cdot\boldsymbol{\sigma})/2}$ ,我们将在李代数部分再次讨论这一点。

$$\text{CNOT} = \begin{bmatrix}1&0&0&0\\0&1&0&0\\0&0&0&1\\0&0&1&0\end{bmatrix}$$ $$|\Phi^+\rangle = \tfrac{1}{\sqrt{2}}(|00\rangle + |11\rangle),$$

图右侧展示了每一步后的振幅向量。该态无法表示为任意两个单比特态的张量积——纠缠是多量子比特向量空间独有的性质,在经典世界中并无对应物。

两种标志性算法#

Grover 搜索:$N$ 个未排序项中找到目标项,量子算法仅需 $O(\sqrt{N})$ 次查询,远优于经典的 $O(N)$ 。整个算法由两次反射构成:Oracle 翻转目标基态的相位,扩散算子 $2|\psi\rangle\langle\psi| - \mathbf{I}$ 则关于均匀叠加态做反射。两次反射合成一次旋转,经过 $O(\sqrt{N})$ 次旋转后,振幅便集中到目标态上。这本质上是第 7 章 正交矩阵的故事,只不过发生在 $\mathbb{C}^N$ 中。

Shor 算法: 利用量子傅里叶变换 (QFT) 在多项式时间内完成整数分解。QFT 本质上就是你熟悉的 DFT 矩阵,但作用于振幅向量时仅需 $O(n^2)$ 个量子门,而非经典的 $O(n 2^n)$ 次标量乘法——这种指数级加速正是 RSA 加密面临威胁的根源。


图神经网络:网络上的线性代数#

一张图,三个矩阵#

$$\mathbf{x}^{T}\mathbf{L}\mathbf{x} = \sum_{(i,j)\in E}(x_i - x_j)^2$$

是信号 $\mathbf{x}$ 在图上的光滑度度量。归一化拉普拉斯 $\tilde{\mathbf{L}} = \mathbf{D}^{-1/2}\mathbf{L}\mathbf{D}^{-1/2}$ 的特征值落在 $[0,2]$ 区间内。

图上的傅里叶变换#

$\mathbf{L}$ 进行特征分解 $\mathbf{L} = \mathbf{U}\boldsymbol{\Lambda}\mathbf{U}^{T}$ ,所得基 $\mathbf{U}$ 赋予了“频率”意义:小特征值对应缓慢变化的特征向量(相邻节点值相近),大特征值则对应高频振荡模式。图傅里叶变换定义为 $\hat{\mathbf{x}} = \mathbf{U}^{T}\mathbf{x}$ ,而谱滤波就是在该基下进行逐元素乘法。谱聚类——利用最低的非平凡特征向量嵌入节点,再运行 k-means——也是同一思想:将低频基下“看起来相似”的节点聚在一起。

从谱滤波到 GCN#

$$\mathbf{H}' = \sigma\!\left(\tilde{\mathbf{D}}^{-1/2}\tilde{\mathbf{A}}\tilde{\mathbf{D}}^{-1/2}\,\mathbf{H}\,\mathbf{W}\right),$$

其中 $\tilde{\mathbf{A}} = \mathbf{A} + \mathbf{I}$ 引入了自环。从右至左解读该式:“先经线性变换 $\mathbf{W}$ ,再聚合归一化后的邻居特征,最后施加非线性激活”——这一行消息传递机制驱动了从分子性质预测(原子为节点,化学键为边)到推荐系统(用户-物品二部图),再到 AlphaFold 结构建模的广泛应用。


大语言模型:注意力不过是戴了帽子的矩阵乘法#

线性代数的本质(18):前沿与总结 —— 可视化

自注意力即软检索#

$$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^{T}}{\sqrt{d_k}}\right)\mathbf{V}.$$

$n \times n$ 矩阵 $\mathbf{Q}\mathbf{K}^{T}$ 存储了所有 token 对之间的相似度。softmax 将每行转化为关于 key 的概率分布,再乘以 $\mathbf{V}$ 即得 value 的加权和。几何上理解:query 是“我在寻找什么”,key 是“我拥有什么”,value 是“我能提供什么”。注意力本质上是一种可微分的数据库查询。多头注意力则在多个习得的子空间中并行执行此操作,使一个头捕捉句法,另一个处理共指。

位置信息即旋转#

纯自注意力具有置换等变性,这对语言任务而言是灾难性的。解决方案是注入位置信息。经典的正弦编码 $PE_{(\text{pos},2i)} = \sin(\text{pos}/10000^{2i/d})$ 具有如下性质:$PE_{(\text{pos}+k)}$$PE_{(\text{pos})}$ 的线性函数——相对位置被编码为旋转。现代的 旋转位置编码 (RoPE) 将此推向极致:它按位置成比例地旋转每对坐标,使得 query 与 key 的内积仅依赖于相对偏移。RoPE 本质上就是复数乘法。

LoRA:低秩自适应#

$$\mathbf{W} = \mathbf{W}_0 + \mathbf{B}\mathbf{A}, \qquad \mathbf{B} \in \mathbb{R}^{d_\text{out}\times r}, \quad \mathbf{A} \in \mathbb{R}^{r\times d_\text{in}}, \quad r \ll d.$$

$d = 4096$$r = 8$ 时,参数量减少 256 倍;推理时还可将 $\mathbf{B}\mathbf{A}$ 折叠回 $\mathbf{W}_0$ ,零开销。QLoRA 结合 $\mathbf{W}_0$ 的 4-bit 量化,使你在单张消费级 GPU 上微调 65B 模型成为可能。

KV 缓存与内存成本#

在自回归生成中,历史 token 的 key 和 value 永不改变,因此可缓存。生成新 token 时,只需计算其 Q/K/V 并执行注意力。缓存占用 $O(2 \cdot L \cdot n \cdot d)$ 空间($L$ 为层数),在长上下文场景下常成为瓶颈。这是工业级的“以空间换时间”策略,而能否跑通模型,往往取决于你是否清楚哪个张量的哪一维在膨胀。


稀疏与高效计算#

稀疏、线性与近似注意力#

$$\text{Attn}(\mathbf{Q},\mathbf{K},\mathbf{V}) \approx \phi(\mathbf{Q})\bigl(\phi(\mathbf{K})^{T}\mathbf{V}\bigr),$$

括号内乘积仅为 $d \times d$ 小矩阵,复杂度从 $O(n^2 d)$ 降至 $O(nd^2)$

量化#

对称 INT$b$ 量化将权重 $w$ 映射为 $\text{round}(w/s)$ ,其中 $s$ 为每张量或每通道的缩放因子。从 FP16 转为 INT4 可节省 4 倍内存,并在支持硬件上显著提速。更严谨的 GPTQ 将量化视为逐层加权逼近问题,以经验 Hessian 为权重,通过 Cholesky 更新求解。量化本质上仍是低精度下的矩阵逼近问题。

剪枝#

移除小幅值权重。非结构化剪枝可达 90%+ 稀疏率,但难以加速;结构化剪枝(整行、整列、整头)对硬件更友好。NVIDIA Ampere 架构内置 2:4 稀疏张量核心,可全速执行结构化稀疏矩阵乘法。压缩存储格式(CSR、CSC)仍是第 12 章 的词汇,只是披上了 2024 年的新装。


张量网络:分解指数级膨胀的张量#

张量网络:高维张量的图形化演算

一个含 $N$ 个指标、每指标维度为 $d$ 的张量共有 $d^N$ 个元素——根本无法存储。张量网络为此类对象提供了合适的分解语言,且如图所示,它拥有一套优美的图示演算:每个节点是一个小张量,每条边是收缩的键,每个开放端口则是剩余的物理指标。

$$\mathcal{X}(i_1,\ldots,i_N) = \mathbf{G}_1(i_1)\,\mathbf{G}_2(i_2) \cdots \mathbf{G}_N(i_N),$$

其中每个 $\mathbf{G}_k(i_k)$ 是一个小矩阵。存储需求从 $d^N$ 降至 $N d r^{2}$$r$ 为键维度)。MPS 是量子多体物理中 DMRG 算法的底层结构,也以随机张量火车草图的形式用于机器学习压缩。PEPS 将其推广至二维格点;MERA 通过堆叠等距映射与解纠缠器,分层捕捉临界(无标度)系统。同一图像也解释了为何深度网络能指数级高效地表示函数:每一层都是一次重整化步骤。


矩阵指数与李代数一瞥#

so(3) 生成元的矩阵指数在球面上画出大圆

矩阵指数 $e^{\mathbf{A}} = \sum_{k\ge 0}\mathbf{A}^k/k!$ 是连接线性代数与连续对称性的桥梁。对反对称矩阵 $\mathbf{K} \in \mathfrak{so}(3)$ ,曲线 $t \mapsto e^{t\mathbf{K}}$ 构成 $\mathbb{R}^3$ 旋转群的单参数子群。图中展示了 so(3) 基 $L_x, L_y, L_z$ 作用于同一起点生成的轨道:每条轨道都是单位球上的大圆,起点处的切向量即为生成元本身。

三点关键启示:其一,特征分解使矩阵指数可计算——若 $\mathbf{A} = \mathbf{V}\boldsymbol{\Lambda}\mathbf{V}^{-1}$ ,则 $e^{\mathbf{A}} = \mathbf{V}\,\text{diag}(e^{\lambda_i})\,\mathbf{V}^{-1}$ ;其二,单量子比特门的参数化 $e^{-i\theta(\mathbf{n}\cdot\boldsymbol{\sigma})/2}$ 正是矩阵指数,故量子与经典旋转实为同一故事;其三,Neural ODEs$d\mathbf{h}/dt = f(\mathbf{h},t,\theta)$ 参数化隐状态,其欧拉离散化重现残差连接,而局部积分正是 Jacobian 的矩阵指数。


从随机矩阵到自由概率#

从随机矩阵 (第 14 章) 到自由概率

第 14 章 曾指出:高维随机性并非混沌,而是伪装下的规律。图左再次呈现两条普适律:宽高比 $\gamma = p/n$ 的样本协方差矩阵,其特征值聚集于 Marchenko-Pastur 密度下,谱边界锐利地位于 $(1\pm\sqrt{\gamma})^2$

右图更进一步:若 $W_1$$W_2$ 为两个大型独立 Wigner 矩阵,则它们渐近自由——一种非交换意义下的独立性——此时 $W_1 + W_2$ 的谱仍是半圆律,方差为二者之和。这就是自由中心极限定理,它开启了一整套演算($R$ -变换),使你能解析预测随机矩阵和与积的谱。如今,自由概率已成为神经网络理论、深度集成及高维统计中的实用工具。


拓扑数据分析:噪声中幸存的形状#

拓扑数据分析:跨尺度持续存在的形状

有时,数据中的结构既非聚类也非低维子空间,而是一个。上图展示了一个从圆环采样的带噪点云及其持久图——TDA 的核心对象。让半径 $r$ 从 0 增至无穷,对每个 $r$ 构建 Vietoris-Rips 复形(距离 $\le r$ 的点相连),追踪拓扑特征的“出生”与“死亡”时刻,并将每个特征绘为点 $(\text{birth}, \text{death})$

贴近对角线的短命点代表噪声;远离对角线的长寿点(如图中醒目的菱形)则对应真实结构。此处单一 $H_1$ 点远高于对角线,正是那个环——它之所以能存活,正是因为底层形状确为圆环。整个流程依赖线性代数:持久性通过在域 $\mathbb{F}_2$ 上约化边界矩阵计算,本质是带巧妙主元规则的高斯消元。TDA 如今已应用于材料科学、生物学,并日益用于分析神经网络的损失景观。


其他前沿方向(每段一瞥)#

随机数值线性代数: 随机化 SVD 通过高斯随机矩阵对列空间进行草图化,再对小稠密矩阵做 SVD,以 $O(mnk)$ 复杂度替代传统的 $O(mn\min(m,n))$ 。其理论依据是 Johnson-Lindenstrauss 引理:随机投影能保持点对距离。草图化现已成为现代预条件子、大规模最小二乘及对数行列式估计的基石。

隐式神经表示: NeRF(神经辐射场)用 MLP 将 $(\mathbf{x}, \mathbf{d})$ 映射至(密度,颜色)以表征 3D 场景。其傅里叶特征位置编码与 Transformer 所用技巧相同;若无此技巧,MLP 会系统性欠拟合高频细节。

神经 PDE 求解器: 物理信息神经网络 (PINNs) 用神经网络参数化解,并将 PDE 残差加入损失。自动微分(链式法则的实例,即矩阵乘法)使任意阶导数计算近乎免费。Neural ODEs 则将网络本身视为连续动力系统。

等变网络与几何深度学习: 通过以群卷积替代矩阵乘法,将对称群嵌入架构。SO(3)-等变网络现已成为分子建模的标准工具。


十八章一览表#

主题核心洞见
1向量有大小和方向;也是任意向量空间(函数、矩阵、信号)的元素。
2向量空间八条公理精确界定了线性组合的适用范围。
3线性映射固定基后,矩阵与线性映射一一对应。
4行列式有向体积缩放因子;为零当且仅当矩阵奇异。
5线性方程组解的结构由四个基本子空间决定。
6特征值特征向量是变换的不变方向。
7正交性内积定义长度与角度;正交基数值最优。
8对称矩阵实对称矩阵可正交对角化,特征值为实数。
9SVD任意矩阵可分解为旋转 - 非负缩放 - 旋转。
10范数与条件数条件数是输入误差的放大因子。
11矩阵微积分梯度指向最陡上升方向;链式法则即矩阵乘法。
12稀疏性L1 范数诱导稀疏;压缩感知突破奈奎斯特限制。
13张量多指标数组;分解揭示隐藏结构。
14随机矩阵高维随机性蕴含惊人规律(Wigner、MP)。
15机器学习PCA 最大化方差;核技巧是隐式特征映射。
16深度学习神经网络 = 分层矩阵乘法 + 非线性。
17计算机视觉相机是投影矩阵;重建是逆问题。
18前沿量子门是酉矩阵;图卷积是拉普拉斯滤波。

最重要的定理#

  • 秩-零化度定理: $\dim\text{null}(\mathbf{A}) + \text{rank}(\mathbf{A}) = n$
  • 谱定理: 实对称矩阵可正交对角化,特征值为实数。
  • SVD 存在性: 任意 $m \times n$ 矩阵均有奇异值分解。
  • Eckart-Young 定理。 截断 SVD 是任意酉不变范数下的最优低秩逼近。
  • Johnson-Lindenstrauss 引理。 随机投影可在控制失真下将高维点嵌入低维。
  • Cayley-Hamilton 定理。 任意矩阵满足其自身特征多项式。
  • Courant-Fischer 极小极大原理。 对称矩阵的特征值是子空间上 Rayleigh 商的极值。

反复出现的三角:几何、数值、计算#

贯穿全系列的三角形:几何、数值、计算

若用一张图概括全系列,非此三角莫属。几何是直觉之源——向量如箭头,矩阵变换空间,特征向量是不变方向,Bloch 球亦属此类。数值告诉你何时可信——范数、条件数、稳定算法、浮点现实。计算则使之规模化可用——稀疏核、随机方法、GPU 张量核心、低精度算术。

三大支柱并非孤立,而是相互倚赖。谱理论连接几何与数值:矩阵谱既刻画几何特性,也揭示扰动敏感性。草图化连接几何与计算:近似保距即保几何,同时降低成本。低精度算术连接数值与计算:牺牲比特换取吞吐,而条件数助你判断可舍弃多少比特。

SVD 居于三角中心,因三大支柱皆认同它:几何上,它是观察线性映射的正确方式;数值上,它是最稳定的分解;计算上,其随机化版本可扩展至海量数据。若本系列只留一句话,请记住:拿不准时,做 SVD。


学习建议与资源#

如何继续前行#

可视化: 用 GeoGebra、Manim(3Blue1Brown 所用库),或 NumPy 与 matplotlib。观察矩阵如何扭曲网格,胜过重读公式。

手算小例子: 许多线性代数洞见,唯有亲手推演 $3 \times 3$ Gram-Schmidt 或 $4 \times 4$ SVD 才能显现。务必尝试一次。

常问为何: 为何如此定义行列式?为何 SVD 恒为实数?为何 GCN 层需自环?拒绝“公式如此”的敷衍,是使用与理解线性代数的分水岭。

定理必联应用: 特征分解:PageRank;SVD:潜在语义分析、推荐系统、NeRF 相机位姿;稀疏性:压缩感知 MRI;随机矩阵:金融协方差清洗。这些联系非事后附会,而是学科前进的动力。

阅读清单#

经典教材。

  • Gilbert Strang,《Introduction to Linear Algebra》——直觉优先,公认入门首选。
  • Sheldon Axler,《Linear Algebra Done Right》——优雅抽象,刻意避开行列式。
  • Trefethen and Bau,《Numerical Linear Algebra》——学习数值面的最佳路径。
  • Golub and Van Loan,《Matrix Computations》——工程师的权威参考。
  • Strang,《Linear Algebra and Learning from Data》——通往机器学习的桥梁。

前沿读物。

  • Nielsen and Chuang,《Quantum Computation and Quantum Information》——量子计算标准文本。
  • Bronstein et al.,《Geometric Deep Learning》——统一等变性、GNN 与 Transformer。
  • Halko, Martinsson, Tropp,“Finding Structure with Randomness”——随机数值线性代数宣言。
  • Edelsbrunner and Harer,《Computational Topology》——TDA 的恰当入门。

在线课程: MIT 18.06(Strang,YouTube);3Blue1Brown《Essence of Linear Algebra》;Stanford CS229(机器学习视角)。

软件: 日常用 NumPy / SciPy 与 PyTorch / JAX;数值研究选 Julia;动画制作推 Manim。


练习题#

量子计算#

  1. 通过计算 $\mathbf{H}^{\dagger}\mathbf{H}$ 验证 Hadamard 矩阵的酉性。
  2. 计算 $\mathbf{H}|0\rangle$$\mathbf{H}|1\rangle$ ,并在 Bloch 球上标出。
  3. 证明 Pauli 矩阵反对易(如 $\mathbf{X}\mathbf{Y} = -\mathbf{Y}\mathbf{X}$ ),并验证 $\mathbf{X}^2 = \mathbf{Y}^2 = \mathbf{Z}^2 = \mathbf{I}$
  4. 证明 Bell 态 $\tfrac{1}{\sqrt{2}}(|00\rangle + |11\rangle)$ 无法写成 $|\phi\rangle \otimes |\psi\rangle$ 形式。
  5. 设计量子电路,将 $|00\rangle$ 映射至 $\tfrac{1}{\sqrt{2}}(|01\rangle + |10\rangle)$

图神经网络#

  1. 对四节点环 $1{-}2,\ 1{-}3,\ 2{-}4,\ 3{-}4$ ,写出 $\mathbf{A}$$\mathbf{D}$$\mathbf{L}$
  2. 计算该拉普拉斯的特征值,验证最小值为 0 并解释重数含义。
  3. 证明 $\mathbf{x}^{T}\mathbf{L}\mathbf{x} = \sum_{(i,j)\in E}(x_i - x_j)^2$ 并阐释其物理意义。
  4. 证明归一化拉普拉斯特征值在 $[0, 2]$ 内。
  5. 若在 $\mathbf{H}' = \sigma(\mathbf{D}^{-1/2}\mathbf{A}\mathbf{D}^{-1/2}\mathbf{H}\mathbf{W})$ 中省略自环,会发生何事?

大模型与高效计算#

  1. 在缩放点积注意力中,若移除 $\sqrt{d_k}$ 归一化,$d_k$ 较大时会出现何问题?
  2. $d_\text{in} = d_\text{out} = 4096$ ,秩 $r = 16$ ,计算原层、LoRA 适配器的参数量及缩减比。
  3. 推导序列长 $n$ 、层数 $L$ 、每层 K/V 维 $d$ 下的 KV 缓存大小。
  4. 为值域 $[-2.5, 2.5]$ 的张量设计 INT8 对称量化,给出量化与反量化公式。
  5. 窗口 $w$ 的滑动窗口注意力渐近复杂度为何?与标准 $O(n^2)$ 比较。

前沿话题#

  1. 证明一般 $e^{\mathbf{A}}e^{\mathbf{B}} \ne e^{\mathbf{A} + \mathbf{B}}$ ,并在 $\mathbf{A}\mathbf{B} = \mathbf{B}\mathbf{A}$ 时验证等式成立。
  2. $N=50$ 、物理维 $d=4$ 、键维 $r=32$ 的 MPS,计算参数量并与 $d^N$ 的稠密张量比较。
  3. 实现随机化 SVD:生成高斯 $\boldsymbol{\Omega}$ ,构造 $\mathbf{Y} = \mathbf{A}\boldsymbol{\Omega}$ ,做 thin QR,再对小投影矩阵 SVD。
  4. 分别从圆与圆盘采样 100 点,计算持久图(任选 TDA 库),解释 $H_1$ 差异。
  5. 结合 GNN 与 Transformer 用于分子性质预测:描述架构、各部分归纳偏置及交叉注意力位置。

编程题#

  1. 用 NumPy 实现 Hadamard 与 CNOT 门,模拟 $|00\rangle \xrightarrow{\mathbf{H}\otimes\mathbf{I}} \xrightarrow{\text{CNOT}}$
  2. 用 PyTorch 实现单层 GCN,在 Karate Club 上运行节点分类。
  3. 在小线性层实现 LoRA,验证 $r = \min(d_\text{in}, d_\text{out})$ 时等价于全量更新。
  4. 实现 INT8 对称量化/反量化,测量预训练线性层的逐通道误差。
  5. 比较标准与滑动窗口注意力随 $n$ 增长的耗时,绘制比率图。

简短结语#

线性代数既古老又年轻。古老,因其核心思想两世纪前已奠定;年轻,因每代技术皆为其寻得新用:19 世纪解方程,20 世纪服务量子力学与运筹学,21 世纪则成为机器学习与大规模推理的基石。

这种非凡的连续性正是关键所在。量子门是酉矩阵,图卷积是拉普拉斯滤波,注意力是 $\mathbf{Q}\mathbf{K}^{T}$ 的 softmax 乘以 $\mathbf{V}$ ,LoRA 是低秩更新,张量网络分解指数,NeRF 与 PINNs 依赖矩阵指数,自由概率将中心极限定理推广至非交换矩阵。这一切皆非陌生之物,而是同一套语言在新尺度或新场景下的演绎。

若本系列达成所愿,当你下次见到标题含“谱”、“张量”或“注意力”的论文时,会视其为故友而非陌路。打开它,寻找矩阵,寻找分解,寻找条件数。数学终将显露其本质。

感谢你陪我走过这十八章。系列的终点并非旅程的终结,而是你个人探索的起点。

本系列

线性代数 18 篇

  1. 01 线性代数(一):向量的本质——不仅仅是箭头
  2. 02 线性代数(二):线性组合与向量空间
  3. 03 线性代数(三):矩阵作为线性变换
  4. 04 线性代数(四):行列式的秘密
  5. 05 线性代数(五):线性方程组与列空间
  6. 06 线性代数(六):特征值与特征向量
  7. 07 线性代数(七):正交性与投影——当向量互不干扰
  8. 08 线性代数(八):对称矩阵与二次型
  9. 09 线性代数(九):奇异值分解 SVD
  10. 10 线性代数(十):矩阵范数与条件数——数值计算的健康体检
  11. 11 线性代数(十一):矩阵微积分与优化——从梯度到反向传播
  12. 12 线性代数(十二):稀疏矩阵与压缩感知——少即是多的数学奇迹
  13. 13 线性代数(十三):张量与多线性代数——从标量到高维数据立方体
  14. 14 线性代数(十四):随机矩阵理论——混沌中的秩序
  15. 15 线性代数(十五):机器学习中的线性代数——从 PCA 到推荐系统
  16. 16 线性代数(十六):深度学习中的线性代数——从全连接到 Transformer
  17. 17 线性代数(十七):计算机视觉中的线性代数——从像素到三维重建
  18. 18 线性代数(十八):前沿应用与总结——量子计算、GNN、大模型,与十八章回望 当前

读有所得?

GitHub 关注我 → 新文周更

GitHub