
线性代数(十八):前沿应用与总结——量子计算、GNN、大模型,与十八章回望
系列终章:把量子门、图卷积、注意力、LoRA、张量网络、矩阵指数、随机矩阵到自由概率、拓扑数据分析这些前沿话题串成一条线,再回望整套书十八章的依赖图与几何/数值/计算三角形。
我们一同走过了线性代数的漫长旅程——从平面上的箭头出发,最终抵达量子计算机的逻辑门、大语言模型的核心机制,以及数据云的拓扑结构。贯穿始终、令人惊叹的一点是(也是本系列试图揭示的):同样的几个核心思想不断重现。向量是状态,矩阵是变换,分解揭示了变换内部的结构,范数则告诉你何时可以信任计算结果。一旦你内化了这个循环,所有所谓的“前沿”领域便不再像陌生国度,而更像是你早已掌握的语言所衍生出的新方言。
这最后一章做两件事:首先,带你逐一探访前沿领域——量子信息、图神经网络、大模型、张量网络、随机数值线性代数、作为李理论桥梁的矩阵指数、自由概率,以及拓扑数据分析,并指出每个领域背后的线性代数骨架;其次,退后一步,为你呈现完整的十八章地图,梳理反复出现的主题、最重要的定理,并指明一条继续前行的道路。
学完本章,你将带走
- 量子计算的酉视角:量子比特是单位向量,量子门是酉矩阵,纠缠源于 CNOT。
- 图拉普拉斯为何是网络的傅里叶基,GCN 又为何是一阶切比雪夫滤波器。
- Transformer 数学的精髓:注意力即软检索,RoPE 即复数旋转,LoRA 即低秩自适应。
- 稀疏注意力、线性注意力、量化、剪枝——同一个矩阵故事,只是加了内存预算的约束。
- 张量网络、随机化 SVD、NeRF、PINNs、Neural ODEs,都是前文章节的自然延续。
- 完整的十八章地图、“几何 / 数值 / 计算”这一反复出现的三角关系,以及进阶阅读清单。
先修要求: 熟悉整个系列内容,尤其是特征分解(第 6 章 )、SVD(第 9 章 )、张量(第 13 章 )、随机矩阵(第 14 章 )和深度学习章节(第 16 章 )。

十八章的依赖图#

在展望未来之前,先回望来路。上图是本系列真实的依赖关系图:蓝色代表基础(向量、向量空间、线性映射),紫色代表结构性结果(行列式、线性方程组、特征值、正交性),绿色代表两大核心分解(谱定理与 SVD),琥珀色代表计算层(范数与条件数、矩阵微积分、稀疏性、张量、随机矩阵),红色代表应用章节(机器学习、深度学习、计算机视觉),而本章作为终章以深色标出。
请注意两点。其一,这张图并非一条线性链条,而是一个薄层网络,多个早期章节会同时汇入后续章节。仅 SVD(第 9 章 )就支撑了第 10、13、14、15、16、17 和 18 章。这绝非偶然——SVD 是应用线性代数中最有用的定理。其二,本章并未凭空引入新数学,而是将你已掌握的思想应用于更庞大的对象。
量子计算:最小尺度上的线性代数#

量子比特即单位向量#
$$|\psi\rangle = \alpha|0\rangle + \beta|1\rangle, \qquad |\alpha|^2 + |\beta|^2 = 1,$$其中计算基为 $|0\rangle = \begin{bmatrix}1\\0\end{bmatrix}$ 和 $|1\rangle = \begin{bmatrix}0\\1\end{bmatrix}$ 。图左侧的 Bloch 球给出了其几何图像:北极对应 $|0\rangle$ ,南极对应 $|1\rangle$ ,球面上任意一点都是合法的量子态。将 $n$ 个量子比特张量积,便得到 $\mathbb{C}^{2^n}$ 中的单位向量——这正是量子算法运行的向量空间。
量子门即酉矩阵#
量子门是一种保持单位范数的线性映射,这恰好就是酉矩阵的定义:$\mathbf{U}^{\dagger}\mathbf{U} = \mathbf{I}$ 。酉性保持内积不变,从而保证概率守恒——这是物理可逆性的线性代数根源。
$$\mathbf{H} = \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\\ 1 & -1\end{bmatrix}, \qquad \mathbf{H}|0\rangle = \tfrac{1}{\sqrt{2}}(|0\rangle + |1\rangle),$$ $$\mathbf{X} = \begin{bmatrix}0 & 1\\ 1 & 0\end{bmatrix},\quad \mathbf{Y} = \begin{bmatrix}0 & -i\\ i & 0\end{bmatrix},\quad \mathbf{Z} = \begin{bmatrix}1 & 0\\ 0 & -1\end{bmatrix}$$是三种基本旋转操作。任意单量子比特门均可表示为矩阵指数 $e^{-i\theta(\mathbf{n}\cdot\boldsymbol{\sigma})/2}$ ,我们将在李代数部分再次讨论这一点。
$$\text{CNOT} = \begin{bmatrix}1&0&0&0\\0&1&0&0\\0&0&0&1\\0&0&1&0\end{bmatrix}$$ $$|\Phi^+\rangle = \tfrac{1}{\sqrt{2}}(|00\rangle + |11\rangle),$$图右侧展示了每一步后的振幅向量。该态无法表示为任意两个单比特态的张量积——纠缠是多量子比特向量空间独有的性质,在经典世界中并无对应物。
两种标志性算法#
Grover 搜索: 在 $N$ 个未排序项中找到目标项,量子算法仅需 $O(\sqrt{N})$ 次查询,远优于经典的 $O(N)$ 。整个算法由两次反射构成:Oracle 翻转目标基态的相位,扩散算子 $2|\psi\rangle\langle\psi| - \mathbf{I}$ 则关于均匀叠加态做反射。两次反射合成一次旋转,经过 $O(\sqrt{N})$ 次旋转后,振幅便集中到目标态上。这本质上是第 7 章 正交矩阵的故事,只不过发生在 $\mathbb{C}^N$ 中。
Shor 算法: 利用量子傅里叶变换 (QFT) 在多项式时间内完成整数分解。QFT 本质上就是你熟悉的 DFT 矩阵,但作用于振幅向量时仅需 $O(n^2)$ 个量子门,而非经典的 $O(n 2^n)$ 次标量乘法——这种指数级加速正是 RSA 加密面临威胁的根源。
图神经网络:网络上的线性代数#
一张图,三个矩阵#
$$\mathbf{x}^{T}\mathbf{L}\mathbf{x} = \sum_{(i,j)\in E}(x_i - x_j)^2$$是信号 $\mathbf{x}$ 在图上的光滑度度量。归一化拉普拉斯 $\tilde{\mathbf{L}} = \mathbf{D}^{-1/2}\mathbf{L}\mathbf{D}^{-1/2}$ 的特征值落在 $[0,2]$ 区间内。
图上的傅里叶变换#
对 $\mathbf{L}$ 进行特征分解 $\mathbf{L} = \mathbf{U}\boldsymbol{\Lambda}\mathbf{U}^{T}$ ,所得基 $\mathbf{U}$ 赋予了“频率”意义:小特征值对应缓慢变化的特征向量(相邻节点值相近),大特征值则对应高频振荡模式。图傅里叶变换定义为 $\hat{\mathbf{x}} = \mathbf{U}^{T}\mathbf{x}$ ,而谱滤波就是在该基下进行逐元素乘法。谱聚类——利用最低的非平凡特征向量嵌入节点,再运行 k-means——也是同一思想:将低频基下“看起来相似”的节点聚在一起。
从谱滤波到 GCN#
$$\mathbf{H}' = \sigma\!\left(\tilde{\mathbf{D}}^{-1/2}\tilde{\mathbf{A}}\tilde{\mathbf{D}}^{-1/2}\,\mathbf{H}\,\mathbf{W}\right),$$其中 $\tilde{\mathbf{A}} = \mathbf{A} + \mathbf{I}$ 引入了自环。从右至左解读该式:“先经线性变换 $\mathbf{W}$ ,再聚合归一化后的邻居特征,最后施加非线性激活”——这一行消息传递机制驱动了从分子性质预测(原子为节点,化学键为边)到推荐系统(用户-物品二部图),再到 AlphaFold 结构建模的广泛应用。
大语言模型:注意力不过是戴了帽子的矩阵乘法#

自注意力即软检索#
$$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^{T}}{\sqrt{d_k}}\right)\mathbf{V}.$$$n \times n$ 矩阵 $\mathbf{Q}\mathbf{K}^{T}$ 存储了所有 token 对之间的相似度。softmax 将每行转化为关于 key 的概率分布,再乘以 $\mathbf{V}$ 即得 value 的加权和。几何上理解:query 是“我在寻找什么”,key 是“我拥有什么”,value 是“我能提供什么”。注意力本质上是一种可微分的数据库查询。多头注意力则在多个习得的子空间中并行执行此操作,使一个头捕捉句法,另一个处理共指。
位置信息即旋转#
纯自注意力具有置换等变性,这对语言任务而言是灾难性的。解决方案是注入位置信息。经典的正弦编码 $PE_{(\text{pos},2i)} = \sin(\text{pos}/10000^{2i/d})$ 具有如下性质:$PE_{(\text{pos}+k)}$ 是 $PE_{(\text{pos})}$ 的线性函数——相对位置被编码为旋转。现代的 旋转位置编码 (RoPE) 将此推向极致:它按位置成比例地旋转每对坐标,使得 query 与 key 的内积仅依赖于相对偏移。RoPE 本质上就是复数乘法。
LoRA:低秩自适应#
$$\mathbf{W} = \mathbf{W}_0 + \mathbf{B}\mathbf{A}, \qquad \mathbf{B} \in \mathbb{R}^{d_\text{out}\times r}, \quad \mathbf{A} \in \mathbb{R}^{r\times d_\text{in}}, \quad r \ll d.$$当 $d = 4096$ 、$r = 8$ 时,参数量减少 256 倍;推理时还可将 $\mathbf{B}\mathbf{A}$ 折叠回 $\mathbf{W}_0$ ,零开销。QLoRA 结合 $\mathbf{W}_0$ 的 4-bit 量化,使你在单张消费级 GPU 上微调 65B 模型成为可能。
KV 缓存与内存成本#
在自回归生成中,历史 token 的 key 和 value 永不改变,因此可缓存。生成新 token 时,只需计算其 Q/K/V 并执行注意力。缓存占用 $O(2 \cdot L \cdot n \cdot d)$ 空间($L$ 为层数),在长上下文场景下常成为瓶颈。这是工业级的“以空间换时间”策略,而能否跑通模型,往往取决于你是否清楚哪个张量的哪一维在膨胀。
稀疏与高效计算#
稀疏、线性与近似注意力#
$$\text{Attn}(\mathbf{Q},\mathbf{K},\mathbf{V}) \approx \phi(\mathbf{Q})\bigl(\phi(\mathbf{K})^{T}\mathbf{V}\bigr),$$括号内乘积仅为 $d \times d$ 小矩阵,复杂度从 $O(n^2 d)$ 降至 $O(nd^2)$ 。
量化#
对称 INT$b$ 量化将权重 $w$ 映射为 $\text{round}(w/s)$ ,其中 $s$ 为每张量或每通道的缩放因子。从 FP16 转为 INT4 可节省 4 倍内存,并在支持硬件上显著提速。更严谨的 GPTQ 将量化视为逐层加权逼近问题,以经验 Hessian 为权重,通过 Cholesky 更新求解。量化本质上仍是低精度下的矩阵逼近问题。
剪枝#
移除小幅值权重。非结构化剪枝可达 90%+ 稀疏率,但难以加速;结构化剪枝(整行、整列、整头)对硬件更友好。NVIDIA Ampere 架构内置 2:4 稀疏张量核心,可全速执行结构化稀疏矩阵乘法。压缩存储格式(CSR、CSC)仍是第 12 章 的词汇,只是披上了 2024 年的新装。
张量网络:分解指数级膨胀的张量#

一个含 $N$ 个指标、每指标维度为 $d$ 的张量共有 $d^N$ 个元素——根本无法存储。张量网络为此类对象提供了合适的分解语言,且如图所示,它拥有一套优美的图示演算:每个节点是一个小张量,每条边是收缩的键,每个开放端口则是剩余的物理指标。
$$\mathcal{X}(i_1,\ldots,i_N) = \mathbf{G}_1(i_1)\,\mathbf{G}_2(i_2) \cdots \mathbf{G}_N(i_N),$$其中每个 $\mathbf{G}_k(i_k)$ 是一个小矩阵。存储需求从 $d^N$ 降至 $N d r^{2}$ ($r$ 为键维度)。MPS 是量子多体物理中 DMRG 算法的底层结构,也以随机张量火车草图的形式用于机器学习压缩。PEPS 将其推广至二维格点;MERA 通过堆叠等距映射与解纠缠器,分层捕捉临界(无标度)系统。同一图像也解释了为何深度网络能指数级高效地表示函数:每一层都是一次重整化步骤。
矩阵指数与李代数一瞥#

矩阵指数 $e^{\mathbf{A}} = \sum_{k\ge 0}\mathbf{A}^k/k!$ 是连接线性代数与连续对称性的桥梁。对反对称矩阵 $\mathbf{K} \in \mathfrak{so}(3)$ ,曲线 $t \mapsto e^{t\mathbf{K}}$ 构成 $\mathbb{R}^3$ 旋转群的单参数子群。图中展示了 so(3) 基 $L_x, L_y, L_z$ 作用于同一起点生成的轨道:每条轨道都是单位球上的大圆,起点处的切向量即为生成元本身。
三点关键启示:其一,特征分解使矩阵指数可计算——若 $\mathbf{A} = \mathbf{V}\boldsymbol{\Lambda}\mathbf{V}^{-1}$ ,则 $e^{\mathbf{A}} = \mathbf{V}\,\text{diag}(e^{\lambda_i})\,\mathbf{V}^{-1}$ ;其二,单量子比特门的参数化 $e^{-i\theta(\mathbf{n}\cdot\boldsymbol{\sigma})/2}$ 正是矩阵指数,故量子与经典旋转实为同一故事;其三,Neural ODEs 以 $d\mathbf{h}/dt = f(\mathbf{h},t,\theta)$ 参数化隐状态,其欧拉离散化重现残差连接,而局部积分正是 Jacobian 的矩阵指数。
从随机矩阵到自由概率#

第 14 章 曾指出:高维随机性并非混沌,而是伪装下的规律。图左再次呈现两条普适律:宽高比 $\gamma = p/n$ 的样本协方差矩阵,其特征值聚集于 Marchenko-Pastur 密度下,谱边界锐利地位于 $(1\pm\sqrt{\gamma})^2$ 。
右图更进一步:若 $W_1$ 与 $W_2$ 为两个大型独立 Wigner 矩阵,则它们渐近自由——一种非交换意义下的独立性——此时 $W_1 + W_2$ 的谱仍是半圆律,方差为二者之和。这就是自由中心极限定理,它开启了一整套演算($R$ -变换),使你能解析预测随机矩阵和与积的谱。如今,自由概率已成为神经网络理论、深度集成及高维统计中的实用工具。
拓扑数据分析:噪声中幸存的形状#

有时,数据中的结构既非聚类也非低维子空间,而是一个洞。上图展示了一个从圆环采样的带噪点云及其持久图——TDA 的核心对象。让半径 $r$ 从 0 增至无穷,对每个 $r$ 构建 Vietoris-Rips 复形(距离 $\le r$ 的点相连),追踪拓扑特征的“出生”与“死亡”时刻,并将每个特征绘为点 $(\text{birth}, \text{death})$ 。
贴近对角线的短命点代表噪声;远离对角线的长寿点(如图中醒目的菱形)则对应真实结构。此处单一 $H_1$ 点远高于对角线,正是那个环——它之所以能存活,正是因为底层形状确为圆环。整个流程依赖线性代数:持久性通过在域 $\mathbb{F}_2$ 上约化边界矩阵计算,本质是带巧妙主元规则的高斯消元。TDA 如今已应用于材料科学、生物学,并日益用于分析神经网络的损失景观。
其他前沿方向(每段一瞥)#
随机数值线性代数: 随机化 SVD 通过高斯随机矩阵对列空间进行草图化,再对小稠密矩阵做 SVD,以 $O(mnk)$ 复杂度替代传统的 $O(mn\min(m,n))$ 。其理论依据是 Johnson-Lindenstrauss 引理:随机投影能保持点对距离。草图化现已成为现代预条件子、大规模最小二乘及对数行列式估计的基石。
隐式神经表示: NeRF(神经辐射场)用 MLP 将 $(\mathbf{x}, \mathbf{d})$ 映射至(密度,颜色)以表征 3D 场景。其傅里叶特征位置编码与 Transformer 所用技巧相同;若无此技巧,MLP 会系统性欠拟合高频细节。
神经 PDE 求解器: 物理信息神经网络 (PINNs) 用神经网络参数化解,并将 PDE 残差加入损失。自动微分(链式法则的实例,即矩阵乘法)使任意阶导数计算近乎免费。Neural ODEs 则将网络本身视为连续动力系统。
等变网络与几何深度学习: 通过以群卷积替代矩阵乘法,将对称群嵌入架构。SO(3)-等变网络现已成为分子建模的标准工具。
十八章一览表#
| 章 | 主题 | 核心洞见 |
|---|---|---|
| 1 | 向量 | 有大小和方向;也是任意向量空间(函数、矩阵、信号)的元素。 |
| 2 | 向量空间 | 八条公理精确界定了线性组合的适用范围。 |
| 3 | 线性映射 | 固定基后,矩阵与线性映射一一对应。 |
| 4 | 行列式 | 有向体积缩放因子;为零当且仅当矩阵奇异。 |
| 5 | 线性方程组 | 解的结构由四个基本子空间决定。 |
| 6 | 特征值 | 特征向量是变换的不变方向。 |
| 7 | 正交性 | 内积定义长度与角度;正交基数值最优。 |
| 8 | 对称矩阵 | 实对称矩阵可正交对角化,特征值为实数。 |
| 9 | SVD | 任意矩阵可分解为旋转 - 非负缩放 - 旋转。 |
| 10 | 范数与条件数 | 条件数是输入误差的放大因子。 |
| 11 | 矩阵微积分 | 梯度指向最陡上升方向;链式法则即矩阵乘法。 |
| 12 | 稀疏性 | L1 范数诱导稀疏;压缩感知突破奈奎斯特限制。 |
| 13 | 张量 | 多指标数组;分解揭示隐藏结构。 |
| 14 | 随机矩阵 | 高维随机性蕴含惊人规律(Wigner、MP)。 |
| 15 | 机器学习 | PCA 最大化方差;核技巧是隐式特征映射。 |
| 16 | 深度学习 | 神经网络 = 分层矩阵乘法 + 非线性。 |
| 17 | 计算机视觉 | 相机是投影矩阵;重建是逆问题。 |
| 18 | 前沿 | 量子门是酉矩阵;图卷积是拉普拉斯滤波。 |
最重要的定理#
- 秩-零化度定理: $\dim\text{null}(\mathbf{A}) + \text{rank}(\mathbf{A}) = n$ 。
- 谱定理: 实对称矩阵可正交对角化,特征值为实数。
- SVD 存在性: 任意 $m \times n$ 矩阵均有奇异值分解。
- Eckart-Young 定理。 截断 SVD 是任意酉不变范数下的最优低秩逼近。
- Johnson-Lindenstrauss 引理。 随机投影可在控制失真下将高维点嵌入低维。
- Cayley-Hamilton 定理。 任意矩阵满足其自身特征多项式。
- Courant-Fischer 极小极大原理。 对称矩阵的特征值是子空间上 Rayleigh 商的极值。
反复出现的三角:几何、数值、计算#

若用一张图概括全系列,非此三角莫属。几何是直觉之源——向量如箭头,矩阵变换空间,特征向量是不变方向,Bloch 球亦属此类。数值告诉你何时可信——范数、条件数、稳定算法、浮点现实。计算则使之规模化可用——稀疏核、随机方法、GPU 张量核心、低精度算术。
三大支柱并非孤立,而是相互倚赖。谱理论连接几何与数值:矩阵谱既刻画几何特性,也揭示扰动敏感性。草图化连接几何与计算:近似保距即保几何,同时降低成本。低精度算术连接数值与计算:牺牲比特换取吞吐,而条件数助你判断可舍弃多少比特。
SVD 居于三角中心,因三大支柱皆认同它:几何上,它是观察线性映射的正确方式;数值上,它是最稳定的分解;计算上,其随机化版本可扩展至海量数据。若本系列只留一句话,请记住:拿不准时,做 SVD。
学习建议与资源#
如何继续前行#
可视化: 用 GeoGebra、Manim(3Blue1Brown 所用库),或 NumPy 与 matplotlib。观察矩阵如何扭曲网格,胜过重读公式。
手算小例子: 许多线性代数洞见,唯有亲手推演 $3 \times 3$ Gram-Schmidt 或 $4 \times 4$ SVD 才能显现。务必尝试一次。
常问为何: 为何如此定义行列式?为何 SVD 恒为实数?为何 GCN 层需自环?拒绝“公式如此”的敷衍,是使用与理解线性代数的分水岭。
定理必联应用: 特征分解:PageRank;SVD:潜在语义分析、推荐系统、NeRF 相机位姿;稀疏性:压缩感知 MRI;随机矩阵:金融协方差清洗。这些联系非事后附会,而是学科前进的动力。
阅读清单#
经典教材。
- Gilbert Strang,《Introduction to Linear Algebra》——直觉优先,公认入门首选。
- Sheldon Axler,《Linear Algebra Done Right》——优雅抽象,刻意避开行列式。
- Trefethen and Bau,《Numerical Linear Algebra》——学习数值面的最佳路径。
- Golub and Van Loan,《Matrix Computations》——工程师的权威参考。
- Strang,《Linear Algebra and Learning from Data》——通往机器学习的桥梁。
前沿读物。
- Nielsen and Chuang,《Quantum Computation and Quantum Information》——量子计算标准文本。
- Bronstein et al.,《Geometric Deep Learning》——统一等变性、GNN 与 Transformer。
- Halko, Martinsson, Tropp,“Finding Structure with Randomness”——随机数值线性代数宣言。
- Edelsbrunner and Harer,《Computational Topology》——TDA 的恰当入门。
在线课程: MIT 18.06(Strang,YouTube);3Blue1Brown《Essence of Linear Algebra》;Stanford CS229(机器学习视角)。
软件: 日常用 NumPy / SciPy 与 PyTorch / JAX;数值研究选 Julia;动画制作推 Manim。
练习题#
量子计算#
- 通过计算 $\mathbf{H}^{\dagger}\mathbf{H}$ 验证 Hadamard 矩阵的酉性。
- 计算 $\mathbf{H}|0\rangle$ 与 $\mathbf{H}|1\rangle$ ,并在 Bloch 球上标出。
- 证明 Pauli 矩阵反对易(如 $\mathbf{X}\mathbf{Y} = -\mathbf{Y}\mathbf{X}$ ),并验证 $\mathbf{X}^2 = \mathbf{Y}^2 = \mathbf{Z}^2 = \mathbf{I}$ 。
- 证明 Bell 态 $\tfrac{1}{\sqrt{2}}(|00\rangle + |11\rangle)$ 无法写成 $|\phi\rangle \otimes |\psi\rangle$ 形式。
- 设计量子电路,将 $|00\rangle$ 映射至 $\tfrac{1}{\sqrt{2}}(|01\rangle + |10\rangle)$ 。
图神经网络#
- 对四节点环 $1{-}2,\ 1{-}3,\ 2{-}4,\ 3{-}4$ ,写出 $\mathbf{A}$ 、$\mathbf{D}$ 与 $\mathbf{L}$ 。
- 计算该拉普拉斯的特征值,验证最小值为 0 并解释重数含义。
- 证明 $\mathbf{x}^{T}\mathbf{L}\mathbf{x} = \sum_{(i,j)\in E}(x_i - x_j)^2$ 并阐释其物理意义。
- 证明归一化拉普拉斯特征值在 $[0, 2]$ 内。
- 若在 $\mathbf{H}' = \sigma(\mathbf{D}^{-1/2}\mathbf{A}\mathbf{D}^{-1/2}\mathbf{H}\mathbf{W})$ 中省略自环,会发生何事?
大模型与高效计算#
- 在缩放点积注意力中,若移除 $\sqrt{d_k}$ 归一化,$d_k$ 较大时会出现何问题?
- 设 $d_\text{in} = d_\text{out} = 4096$ ,秩 $r = 16$ ,计算原层、LoRA 适配器的参数量及缩减比。
- 推导序列长 $n$ 、层数 $L$ 、每层 K/V 维 $d$ 下的 KV 缓存大小。
- 为值域 $[-2.5, 2.5]$ 的张量设计 INT8 对称量化,给出量化与反量化公式。
- 窗口 $w$ 的滑动窗口注意力渐近复杂度为何?与标准 $O(n^2)$ 比较。
前沿话题#
- 证明一般 $e^{\mathbf{A}}e^{\mathbf{B}} \ne e^{\mathbf{A} + \mathbf{B}}$ ,并在 $\mathbf{A}\mathbf{B} = \mathbf{B}\mathbf{A}$ 时验证等式成立。
- 对 $N=50$ 、物理维 $d=4$ 、键维 $r=32$ 的 MPS,计算参数量并与 $d^N$ 的稠密张量比较。
- 实现随机化 SVD:生成高斯 $\boldsymbol{\Omega}$ ,构造 $\mathbf{Y} = \mathbf{A}\boldsymbol{\Omega}$ ,做 thin QR,再对小投影矩阵 SVD。
- 分别从圆与圆盘采样 100 点,计算持久图(任选 TDA 库),解释 $H_1$ 差异。
- 结合 GNN 与 Transformer 用于分子性质预测:描述架构、各部分归纳偏置及交叉注意力位置。
编程题#
- 用 NumPy 实现 Hadamard 与 CNOT 门,模拟 $|00\rangle \xrightarrow{\mathbf{H}\otimes\mathbf{I}} \xrightarrow{\text{CNOT}}$ 。
- 用 PyTorch 实现单层 GCN,在 Karate Club 上运行节点分类。
- 在小线性层实现 LoRA,验证 $r = \min(d_\text{in}, d_\text{out})$ 时等价于全量更新。
- 实现 INT8 对称量化/反量化,测量预训练线性层的逐通道误差。
- 比较标准与滑动窗口注意力随 $n$ 增长的耗时,绘制比率图。
简短结语#
线性代数既古老又年轻。古老,因其核心思想两世纪前已奠定;年轻,因每代技术皆为其寻得新用:19 世纪解方程,20 世纪服务量子力学与运筹学,21 世纪则成为机器学习与大规模推理的基石。
这种非凡的连续性正是关键所在。量子门是酉矩阵,图卷积是拉普拉斯滤波,注意力是 $\mathbf{Q}\mathbf{K}^{T}$ 的 softmax 乘以 $\mathbf{V}$ ,LoRA 是低秩更新,张量网络分解指数,NeRF 与 PINNs 依赖矩阵指数,自由概率将中心极限定理推广至非交换矩阵。这一切皆非陌生之物,而是同一套语言在新尺度或新场景下的演绎。
若本系列达成所愿,当你下次见到标题含“谱”、“张量”或“注意力”的论文时,会视其为故友而非陌路。打开它,寻找矩阵,寻找分解,寻找条件数。数学终将显露其本质。
感谢你陪我走过这十八章。系列的终点并非旅程的终结,而是你个人探索的起点。
线性代数 18 篇
- 01 线性代数(一):向量的本质——不仅仅是箭头
- 02 线性代数(二):线性组合与向量空间
- 03 线性代数(三):矩阵作为线性变换
- 04 线性代数(四):行列式的秘密
- 05 线性代数(五):线性方程组与列空间
- 06 线性代数(六):特征值与特征向量
- 07 线性代数(七):正交性与投影——当向量互不干扰
- 08 线性代数(八):对称矩阵与二次型
- 09 线性代数(九):奇异值分解 SVD
- 10 线性代数(十):矩阵范数与条件数——数值计算的健康体检
- 11 线性代数(十一):矩阵微积分与优化——从梯度到反向传播
- 12 线性代数(十二):稀疏矩阵与压缩感知——少即是多的数学奇迹
- 13 线性代数(十三):张量与多线性代数——从标量到高维数据立方体
- 14 线性代数(十四):随机矩阵理论——混沌中的秩序
- 15 线性代数(十五):机器学习中的线性代数——从 PCA 到推荐系统
- 16 线性代数(十六):深度学习中的线性代数——从全连接到 Transformer
- 17 线性代数(十七):计算机视觉中的线性代数——从像素到三维重建
- 18 线性代数(十八):前沿应用与总结——量子计算、GNN、大模型,与十八章回望 当前