随机矩阵理论 -- 混沌中的秩序

把一百万个独立高斯数排成一个 $1000 \times 1000$ 的对称矩阵，算它的特征值；这些特征值居然会铺成一条完美的半圆。一个本应是单位阵的样本协方差，特征值偏偏会摊到一段你能预先算出宽度的区间上。一个 Wigner 矩阵的最大特征值，其涨落分布既出现在重核能级里，也出现在生长晶体的高度涨落、随机置换最长上升子序列长度的分布里——这就是 Tracy-Widom 律。随机矩阵理论（Random Matrix Theory，RMT）研究的就是这一类"混沌中的秩序"为什么会出现，以及怎么把它们用起来。

本章你将学到
两大模型家族：Wigner 矩阵和 Wishart 矩阵
半圆律与 Marchenko-Pastur 律：谱的"中心极限定理"
特征值排斥、Wigner 猜测、Tracy-Widom 边缘分布
Stieltjes 变换与自由概率论的实用直觉
应用：MIMO 容量、协方差清洗、PCA 阈值、尖峰协方差与 BBP 相变
预备知识： 特征分解（第六章）、SVD（第九章）、基本概率（均值、方差、独立同分布、经典 CLT）。

1. 第一个惊喜：随机矩阵为什么"不随机"

把一个 $1000\times 1000$ 的矩阵填上独立标准高斯，对称化，再除以 $\sqrt{n}$，画特征值的直方图——你换多少次随机种子，得到的都是同一条 $[-2, 2]$ 上的半圆。把高斯换成均匀分布，半圆没变；换成 $\pm 1$ 离散分布，半圆没变；换成复埃尔米特高斯，半圆还是没变。

这不是魔法，而是经典中心极限定理的高维兄弟。当你对一百万个弱相关随机量做某种"平均"（一个特征值就是矩阵元的复杂平均），微观分布会被洗掉，只剩下少数几个粗粒度统计量——均值、方差、对称性——决定极限。半圆律就是谱的中心极限定理。

进入矩阵世界后变化的只是极限对象本身：不再是一根高斯曲线，而是一整条特征值密度，外加关于间距的精确规律和边缘的涨落定理。RMT 就是这三件事的微积分。

2. 两大模型家族

2.1 Wigner 矩阵：对称的"噪声"

实对称的 Wigner 矩阵 $\mathbf{W}\in\mathbb{R}^{n\times n}$ 满足：

对角元 $w_{ii}$ 独立同分布，均值 0，方差 $\sigma_d^2$；
上三角元 $w_{ij}$（$i
$w_{ji}=w_{ij}$ 由对称性决定。

如果所有元素都服从高斯分布，就是高斯正交系综（GOE）；它的分布在任何正交相似变换 $\mathbf{O}\mathbf{W}\mathbf{O}^\top$ 下不变，所以叫"正交"。复埃尔米特版本叫 GUE（酉对称），四元数版本叫 GSE（辛对称）。GOE/GUE/GSE 这三件套在物理里对应"是否有时间反演对称性 + 自旋是否为半整数"——这是为什么同一组矩阵在原子核、量子混沌、统计物理里反复出现。

类比。 把一张 Erdős–Rényi 社交图的边权 $w_{ij}$ 想成两人之间的"亲密度"。这张亲密度矩阵的特征值告诉你它的整体社群结构；如果亲密度本身是随机的，结构就由我们马上要讲的普适律给出。

2.2 Wishart 矩阵：样本协方差

设 $\mathbf{X}\in\mathbb{R}^{n\times p}$ 的元素独立同分布，均值 0，方差 1。Wishart 矩阵（也叫样本协方差）是

$$ \mathbf{S} \;=\; \frac{1}{n}\mathbf{X}^\top\mathbf{X} \;\in\; \mathbb{R}^{p\times p}. $$

当 $n\gg p$ 时，$\mathbf{S}$ 是真协方差的好估计。但当 $n,p$ 同时很大、$p/n$ 保持有限时，$\mathbf{S}$ 会以一种结构化的、可预测的方式失真——这正是 Marchenko–Pastur 律告诉我们的。

类比。 跟踪 $p=500$ 只股票一年（$n\approx 252$ 个交易日）。你算的协方差矩阵有 $125{,}000$ 个自由参数，却只有约 $126{,}000$ 个数据点；估计本身就是一个随机矩阵，即使真协方差是单位阵，特征值也会按 RMT 规律摊开。

3. Wigner 半圆律

3.1 定理陈述

设 $\mathbf{W}$ 是 $n\times n$ 的 Wigner 矩阵，非对角方差为 $\sigma^2$。归一化矩阵

$$ \hat{\mathbf{W}} \;=\; \frac{\mathbf{W}}{\sigma\sqrt{n}}. $$

当 $n\to\infty$ 时，经验谱分布 $\frac{1}{n}\sum_i \delta_{\lambda_i(\hat{\mathbf{W}})}$ 几乎必然弱收敛到半圆密度

$$ f(x) \;=\; \frac{1}{2\pi}\sqrt{4-x^2},\qquad x\in[-2,2], $$

在 $[-2,2]$ 之外 $f(x)=0$。

3.2 三种角度看清"为什么是半圆"

1) 矩方法（严格证明的主线）。 计算 $m_k=\mathbb{E}[\frac{1}{n}\operatorname{tr}\hat{\mathbf{W}}^k]$。把迹展开成 $n$ 个顶点上的长度为 $k$ 的闭路径之和，每条路径配上对应矩阵元矩的乘积。独立性 + 均值 0 强迫只剩下两两配对、且配对是非交叉的路径——这正是 Catalan 数 $C_{k/2}$ 所计数的对象。Catalan 数恰好是半圆分布的偶阶矩，于是极限只能是半圆。

$$ \rho(\lambda_1,\dots,\lambda_n) \;\propto\; \prod_{i 这是 $n$ 个带电粒子在直线上做对数排斥（Vandermonde 因子）+ 谐振子势困阱的平衡分布。“排斥 vs 拉回"的平衡密度就是半圆。

3) 自由 CLT（代数视角）。 对称随机矩阵可以写成大量"自由"秩 1 扰动之和。在自由概率里，“独立变量求和"的对应物是自由加法卷积，它的中心极限定理给出半圆分布——而不是高斯。详见第 7 节。

3.3 为什么底层分布无关紧要

半圆律是普适的：把元素从高斯换成均匀、$\pm 1$ 或任何其他均值 0、方差有限的分布，极限都是同一条半圆。这正是经典 CLT 的镜像——和的归一化极限是高斯，与每个加项的具体分布无关。

机制也是同一个：归一化只让二阶矩存活，其他细节都被平均掉了。

3.4 代码验证

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
import numpy as np
import matplotlib.pyplot as plt

n, repeats = 1500, 30
all_eigs = []
for _ in range(repeats):
    a = np.random.randn(n, n)
    w = (a + a.T) / np.sqrt(2 * n)        # 方差归一化：标准半圆
    all_eigs.append(np.linalg.eigvalsh(w))
all_eigs = np.concatenate(all_eigs)

x = np.linspace(-2, 2, 600)
plt.hist(all_eigs, bins=90, density=True, alpha=0.55, label="Empirical")
plt.plot(x, np.sqrt(np.maximum(4 - x**2, 0)) / (2 * np.pi),
         lw=2.5, label="Semicircle")
plt.legend(); plt.show()

实际上 $n=200$ 已经能看到几乎完美的吻合。

4. Marchenko-Pastur 律

4.1 定理陈述

设 $\mathbf{X}$ 是 $n\times p$、元素独立同分布、均值 0、方差 1，记 $\gamma=p/n$（纵横比）。当 $n,p\to\infty$、$\gamma$ 固定时，$\mathbf{S}=\frac{1}{n}\mathbf{X}^\top\mathbf{X}$ 的经验谱分布收敛到 Marchenko-Pastur 密度

$$ f(\lambda) \;=\; \frac{1}{2\pi\gamma\,\lambda}\sqrt{(\lambda_+-\lambda)(\lambda-\lambda_-)},\qquad \lambda\in[\lambda_-,\lambda_+], $$

其中边界为

$$ \lambda_\pm \;=\; (1\pm\sqrt{\gamma})^2. $$

如果 $\gamma>1$，则 $\mathbf{S}$ 的秩至多为 $n

4.2 这条密度告诉我们什么

即使总体协方差就是单位阵，有限样本也会把特征值摊开：

$\gamma=0.1$：边界 $[0.47, 1.69]$——轻微展宽。
$\gamma=0.5$：边界 $[0.09, 2.91]$——最大样本特征值是真值的三倍。
$\gamma=1.0$：边界 $[0,4]$——谱触底为零，矩阵濒临奇异。

这条密度是统计学里所有 RMT 应用的定量依据：任何严格大于 $\lambda_+$ 的样本特征值是显著的；落在 $[\lambda_-,\lambda_+]$ 区间里的，与纯噪声不可区分。

Marchenko-Pastur 律在四个不同 $\gamma$ 下的形状：$\gamma$ 越大，谱越宽；$\gamma=1$ 时谱触底

4.3 代码

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
import numpy as np, matplotlib.pyplot as plt

n, p, repeats = 1000, 500, 30
gamma = p / n
all_eigs = []
for _ in range(repeats):
    x = np.random.randn(n, p)
    all_eigs.append(np.linalg.eigvalsh(x.T @ x / n))
all_eigs = np.concatenate(all_eigs)

lam_minus, lam_plus = (1 - np.sqrt(gamma))**2, (1 + np.sqrt(gamma))**2
xs = np.linspace(lam_minus + 1e-3, lam_plus - 1e-3, 500)
mp = np.sqrt((lam_plus - xs) * (xs - lam_minus)) / (2 * np.pi * gamma * xs)

plt.hist(all_eigs, bins=100, density=True, alpha=0.5, label="Empirical")
plt.plot(xs, mp, "r", lw=2, label="MP theory")
for e in (lam_minus, lam_plus):
    plt.axvline(e, ls="--", color="g")
plt.legend(); plt.show()

5. 精细结构：排斥与边缘

半圆律和 MP 律描述的是主体——宏观形状。RMT 在两个更细的尺度上还有精确结论。

5.1 间距分布：特征值彼此排斥

固定主体内部的某个点，看它到最近邻特征值的距离（用局部平均间距归一化）。对 GOE 矩阵，这个间距近似服从 Wigner 猜测

$$ p(s) \;=\; \frac{\pi s}{2}\exp\!\Big(-\frac{\pi s^2}{4}\Big). $$

关键是 $p(0)=0$：特征值不会重合。它们主动排斥，对 GOE 在 $s=0$ 处以二次方式趋零（GUE 是三次——不同对称类有不同的排斥指数）。

对照之下，独立的随机能级，间距分布是指数 $p(s)=e^{-s}$，在 $s=0$ 处取最大值。“独立时该聚堆"恰恰是特征值绝不去做的事。

5.2 边缘：Tracy-Widom 律

$n\times n$ 的 GOE 矩阵的最大特征值 $\lambda_{\max}$ 在大 $n$ 下贴近 $2$，但它的涨落非常小——量级是 $n^{-2/3}$，不是你直觉以为的 $n^{-1/2}$。具体地，

$$ n^{2/3}\big(\lambda_{\max}-2\big) \;\xrightarrow{d}\; \mathrm{TW}_1, $$

其中 $\mathrm{TW}_1$ 是 $\beta=1$ 的 Tracy-Widom 分布。它高度不对称：左尾超指数衰减（你几乎看不到 $\lambda_{\max}$ 显著小于 2），右尾按 $\exp(-\frac{2}{3}t^{3/2})$ 慢一些（极端大值会出现，但稀有）。同一个 TW 分布也支配着随机置换的最长上升子序列、生长晶体的高度涨落，以及现代统计里大随机矩阵的最大奇异值。

5.3 随机谱 vs 确定谱

一张图就把全部对比讲清楚了：随机 Wigner 谱是一片平滑、强相关的主体；确定谱则是几个尖簇，每个簇内部只有独立的采样噪声。

6. 应用

6.1 无线通信：MIMO 容量随天线线性增长

发射 $n_t$ 根、接收 $n_r$ 根天线的 MIMO 信道，容量为

$$ C \;=\; \sum_i \log_2\!\Big(1 + \frac{\mathrm{SNR}}{n_t}\lambda_i\Big), $$

其中 $\lambda_i$ 是 $\mathbf{H}\mathbf{H}^\dagger$ 的特征值，$\mathbf{H}$ 是随机信道矩阵。MP 律告诉我们 $\lambda_i$ 的极限密度，对 $\log_2(1+\mathrm{SNR}\cdot\lambda)$ 积分就得到遍历容量。结论是容量随 $\min(n_t,n_r)$ 线性增长——这是今天的手机、基站、Wi-Fi 路由器都堆多天线的理论根源。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
import numpy as np

def mimo_capacity(n_r, n_t, snr_db, trials=500):
    snr = 10 ** (snr_db / 10)
    caps = []
    for _ in range(trials):
        H = (np.random.randn(n_r, n_t)
             + 1j * np.random.randn(n_r, n_t)) / np.sqrt(2)
        eigs = np.linalg.eigvalsh(H @ H.conj().T)
        caps.append(np.sum(np.log2(1 + snr / n_t * eigs)))
    return float(np.mean(caps))

print(f"4x4 @ 10 dB: {mimo_capacity(4, 4, 10):.2f} bits/s/Hz")
print(f"8x8 @ 10 dB: {mimo_capacity(8, 8, 10):.2f} bits/s/Hz")

6.2 金融：清洗样本协方差

跟踪 $p$ 只股票 $n$ 个交易日；任何现实场景下纵横比 $\gamma=p/n$ 都不接近 0。MP 边界精确告诉你哪些样本特征值是"噪声”。标准流程：

特征分解：$\mathbf{S}=\mathbf{U}\,\mathrm{diag}(\lambda_1,\dots,\lambda_p)\,\mathbf{U}^\top$；
估噪声方差 $\sigma^2$（比如用 MP 主体内特征值的均值）；
算 $\lambda_\pm=\sigma^2(1\pm\sqrt{\gamma})^2$；
把 $[\lambda_-,\lambda_+]$ 内的特征值全部替换为它们的均值（或更精细的收缩）；
重构 $\tilde{\mathbf{S}}=\mathbf{U}\,\mathrm{diag}(\tilde\lambda_i)\,\mathbf{U}^\top$。

用 $\tilde{\mathbf{S}}$ 构建的投资组合，样本外夏普比率通常提升 $10\%$–$30\%$，换手率显著降低。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
import numpy as np

def clean_covariance(returns):
    """把 MP 主体内的特征值替换为均值。"""
    n, p = returns.shape
    gamma = p / n
    S = np.cov(returns, rowvar=False)
    eigs, vecs = np.linalg.eigh(S)
    sigma2 = np.mean(eigs)
    lo, hi = sigma2 * (1 - np.sqrt(gamma))**2, sigma2 * (1 + np.sqrt(gamma))**2
    bulk = (eigs >= lo) & (eigs <= hi)
    eigs[bulk] = eigs[bulk].mean()
    return vecs @ np.diag(eigs) @ vecs.T

6.3 高维 PCA：到底保留几个主成分？

PCA 流程里"保留几个主成分"在 $p\approx n$ 时几乎没有好答案。RMT 给出一个干脆的回答：保留所有大于 $\lambda_+=(1+\sqrt{\gamma})^2$ 的特征值。 凡是落在 MP 边缘以下的，都和独立同分布噪声不可区分。

1
2
3
4
5
6
7
8
import numpy as np

def pca_signal_count(X):
    n, p = X.shape
    gamma = p / n
    Xs = (X - X.mean(0)) / X.std(0)
    eigs = np.linalg.eigvalsh(Xs.T @ Xs / n)
    return int(np.sum(eigs > (1 + np.sqrt(gamma))**2))

6.4 尖峰协方差与 BBP 相变

上面那个 PCA 准则在信号微弱时还不够诚实。更现实的模型是尖峰协方差：总体协方差 $\Sigma=\mathbf{I}+\sum_{k=1}^{r}(s_k-1)\mathbf{v}_k\mathbf{v}_k^\top$，即单位阵加 $r$ 个"尖峰”。Baik-Ben Arous-Péché（BBP）相变告诉我们：

如果总体尖峰 $s_k>1+\sqrt{\gamma}$，对应的样本特征值会脱离 MP 主体，落在 $s_k+\gamma s_k/(s_k-1)$，且样本特征向量与 $\mathbf{v}_k$ 有正余弦相关；
如果 $s_k\le 1+\sqrt{\gamma}$，尖峰是不可见的：它被埋进 MP 主体里，无论用多聪明的算法都还原不出 $\mathbf{v}_k$。

这是高维 PCA 的一条硬性不可能定理：它精确告诉你什么时候必须收集更多样本，什么时候这个问题在当前 $n,p$ 下统计上无解。

尖峰协方差：主体仍是 MP 律，超临界尖峰从总体值 $s$ 偏移到 $s+\gamma s/(s-1)$ 出现在外缘；亚临界尖峰彻底融进主体

6.5 神经网络初始化

权重 $\mathbf{W}$ 的初始化让 $\mathbf{W}^\top\mathbf{W}$ 的特征值集中在 $1$ 附近，激活的方差才能逐层稳定。Xavier/Glorot 法则 $\mathrm{Var}(w_{ij})=2/(n_\text{in}+n_\text{out})$ 恰好让 $\mathbf{W}$ 的奇异值落在以 $1$ 为中心的 MP 支撑里。正交初始化更进一步——它直接消除奇异值的展宽，深线性网络中信号传播因此可以严格保等距。

7. 工具箱

7.1 Stieltjes 变换

任意 $\mathbb{R}$ 上的概率测度 $\mu$ 都有 Stieltjes 变换

$$ m_\mu(z) \;=\; \int\frac{d\mu(\lambda)}{\lambda-z},\qquad z\in\mathbb{C}^+. $$$$ f(\lambda) \;=\; -\frac{1}{\pi}\lim_{\eta\to 0^+}\operatorname{Im}\,m_\mu(\lambda+i\eta). $$

为什么要用它？因为经验谱分布的 Stieltjes 变换正好等于 $\frac{1}{n}\operatorname{tr}(\mathbf{M}-z\mathbf{I})^{-1}$，而预解算子（resolvent）便于代数操纵。现代 RMT 的大多数证明都在 Stieltjes 变换层面进行：写出 $m(z)$ 满足的自洽方程，求解，反演。

对半圆律，自洽方程是 $m(z)^2+zm(z)+1=0$，解为 $m(z)=(-z+\sqrt{z^2-4})/2$。MP 律的方程同样小巧。

7.2 一段话讲清楚自由概率论

在自由概率里，“非交换随机变量” $a,b$ 是自由独立的，当且仅当它们的交替混合矩按特定的迹方式分解。Voiculescu 的核心定理是：大型独立随机矩阵在极限下渐近自由。卷积的自由对应物——自由加法卷积 $\boxplus$——把 $\mathbf{A}$ 与 $\mathbf{B}$ 的谱分布映到 $\mathbf{A}+\mathbf{B}$ 的谱分布。对应的中心极限定理给出半圆分布。实用结论：所有你对独立标量随机变量之和会做的事（求均值、方差、CLT、Berry-Esseen 估计），独立矩阵之谱都有一个自由对应物。

7.3 半圆律的证明骨架（矩方法）

计算 $m_k=\mathbb{E}[\frac{1}{n}\operatorname{tr}\hat{\mathbf{W}}^k]$。把迹展开成 $\{1,\dots,n\}$ 上长度为 $k$ 的闭路径之和，权重是 $\prod_e\mathbb{E}[w_e]$。独立性 + 均值 0 杀掉所有"含有奇数次某条边"的路径。$k$ 为偶数时，主导贡献来自两两配对、且配对非交叉的路径——它们恰好被 Catalan 数 $C_{k/2}$ 计数，归一化后权重为 $1$。Catalan 数正是半圆分布的偶阶矩，所以极限只能是半圆。

8. 练习题

基础题

写出 $3\times 3$ GOE（对角方差 $2$、非对角方差 $1$）的 $\mathbb{E}[\mathbf{W}]$ 与 $\mathrm{Cov}(w_{ij},w_{kl})$。
为什么需要 $1/\sqrt{n}$ 归一化？不归一化时 $\lambda_{\max}$ 会怎样？
给定 $\gamma=0.5$，算出 $\lambda_\pm$ 并草图 MP 密度。它的最大值在哪里？

计算与证明

用代换 $x=2\sin\theta$ 证明 $\int_{-2}^{2}\frac{1}{2\pi}\sqrt{4-x^2}\,dx=1$。
计算半圆分布的二阶、四阶矩，并验证它们等于 Catalan 数 $C_1$ 和 $C_2$。
设 $\mathbf{X}$ 元素独立同分布于 $\mathcal{N}(0,1)$，证明 $\mathbb{E}[\mathbf{X}^\top\mathbf{X}]=n\mathbf{I}_p$。
推导 $2\times 2$ 对称高斯矩阵两个特征值的联合密度，指出排斥因子。

编程题

数值验证 Wigner 猜测：取 $200$ 个 $n=500$ 的 GOE 矩阵，计算主体最近邻间距、用局部均值归一化，对照 $p(s)$ 与 $e^{-s}$。
画 $\gamma\in\{0.1,0.5,1.0,2.0\}$ 的 MP 直方图。$\gamma>1$ 时单独统计零特征值。
画 $2\times 2,4\times 4,8\times 8,16\times 16$ 的 MIMO 容量随 SNR 曲线，验证高 SNR 下"天线翻倍、容量翻倍”。
复现 BBP 相变：固定 $\gamma=0.5$，让尖峰强度 $s$ 从 $1$ 扫到 $3$，画最大样本特征值与 $s$ 的关系，标出预测的临界点 $s=1+\sqrt{\gamma}$。

应用题

量化研究员跟踪 $100$ 只股票 $200$ 天。算 $\gamma$，求 $[\lambda_-,\lambda_+]$，判断样本特征值 $3.5$ 是信号还是噪声。
$8\times 4$ 复高斯 MIMO 信道：写出容量表达式，估计 $30$ dB 时的容量，预测升级到 $16\times 8$ 后的增益。
给定 $1000$ 样本 $500$ 维：算出 MP 阈值，并解释怎样用它来选 PCA 主成分数。

进阶题

查 Tracy-Widom 密度及其在高维 MANOVA 的 Roy 最大根检验中的角色。为什么 $p/n$ 不小时经典的卡方近似就坏了？
严谨陈述 BBP 相变。为什么没有任何估计量能检测到亚临界尖峰？
为什么复杂原子核的能级间距服从 GOE 统计？时间反演对称性如何决定 GOE 与 GUE 的选择？

9. 本章总结

模型： Wigner 矩阵建模对称噪声；Wishart 矩阵建模样本协方差。GOE/GUE/GSE 三个高斯版本对应不同对称类。

主体律： Wigner 谱的半圆律与 Wishart 谱的 Marchenko-Pastur 律。两者都是普适的——只要元素分布有有限方差，与具体形态无关。

精细结构： 特征值按已知规律排斥（Wigner 猜测）；最大特征值的涨落量级是 $n^{-2/3}$，服从 Tracy-Widom 分布。

工具： Stieltjes 变换把谱问题翻译成代数方程；自由概率把经典 CLT 风格的论证提升到独立矩阵之谱的世界。

为什么重要： RMT 在 MIMO 容量、协方差清洗、PCA 阈值、尖峰模型的 BBP 相变、神经网络初始化里都给出尖锐的、常常是无参数的预测。每一处教训都是同一个：高维随机有一副隐藏的、确定的骨架，你可以把它用起来。

参考资料

Bai, Z., & Silverstein, J. W. Spectral Analysis of Large Dimensional Random Matrices. Springer, 2010.
Anderson, G. W., Guionnet, A., & Zeitouni, O. An Introduction to Random Matrices. Cambridge University Press, 2010.
Mehta, M. L. Random Matrices. Academic Press, 2004.
Tao, T. Topics in Random Matrix Theory. AMS, 2012.
Tulino, A. M., & Verdú, S. Random Matrix Theory and Wireless Communications. Foundations and Trends, 2004.
Bouchaud, J.-P., & Potters, M. Financial Applications of Random Matrix Theory. arXiv:0910.1205, 2009.
Couillet, R., & Debbah, M. Random Matrix Methods for Wireless Communications. Cambridge University Press, 2011.
Baik, J., Ben Arous, G., & Péché, S. “Phase transition of the largest eigenvalue for nonnull complex sample covariance matrices.” Annals of Probability, 2005.

系列导航

上一篇： 第十三章：张量与多线性代数
下一篇： 第十五章：机器学习中的线性代数
完整系列： 线性代数的本质（1–18）