随机矩阵理论 -- 混沌中的秩序
把随机数填进巨大矩阵,计算特征值,竟然会出现惊人的规律。本章从 Wigner 半圆律到 Marchenko-Pastur 分布、Tracy-Widom 分布,以及随机矩阵在无线通信、金融和机器学习中的应用。
把一百万个独立高斯数排成一个 $1000 \times 1000$ 的对称矩阵,算它的特征值;这些特征值居然会铺成一条完美的半圆。一个本应是单位阵的样本协方差,特征值偏偏会摊到一段你能预先算出宽度的区间上。一个 Wigner 矩阵的最大特征值,其涨落分布既出现在重核能级里,也出现在生长晶体的高度涨落、随机置换最长上升子序列长度的分布里——这就是 Tracy-Widom 律。随机矩阵理论(Random Matrix Theory,RMT)研究的就是这一类"混沌中的秩序"为什么会出现,以及怎么把它们用起来。
本章你将学到
- 两大模型家族:Wigner 矩阵和 Wishart 矩阵
- 半圆律与 Marchenko-Pastur 律:谱的"中心极限定理"
- 特征值排斥、Wigner 猜测、Tracy-Widom 边缘分布
- Stieltjes 变换与自由概率论的实用直觉
- 应用:MIMO 容量、协方差清洗、PCA 阈值、尖峰协方差与 BBP 相变
预备知识: 特征分解(第六章)、SVD(第九章)、基本概率(均值、方差、独立同分布、经典 CLT)。
1. 第一个惊喜:随机矩阵为什么"不随机"
把一个 $1000\times 1000$ 的矩阵填上独立标准高斯,对称化,再除以 $\sqrt{n}$,画特征值的直方图——你换多少次随机种子,得到的都是同一条 $[-2, 2]$ 上的半圆。把高斯换成均匀分布,半圆没变;换成 $\pm 1$ 离散分布,半圆没变;换成复埃尔米特高斯,半圆还是没变。
这不是魔法,而是经典中心极限定理的高维兄弟。当你对一百万个弱相关随机量做某种"平均"(一个特征值就是矩阵元的复杂平均),微观分布会被洗掉,只剩下少数几个粗粒度统计量——均值、方差、对称性——决定极限。半圆律就是谱的中心极限定理。
进入矩阵世界后变化的只是极限对象本身:不再是一根高斯曲线,而是一整条特征值密度,外加关于间距的精确规律和边缘的涨落定理。RMT 就是这三件事的微积分。

2. 两大模型家族
2.1 Wigner 矩阵:对称的"噪声"
实对称的 Wigner 矩阵 $\mathbf{W}\in\mathbb{R}^{n\times n}$ 满足:
- 对角元 $w_{ii}$ 独立同分布,均值 0,方差 $\sigma_d^2$;
- 上三角元 $w_{ij}$($i
- $w_{ji}=w_{ij}$ 由对称性决定。
如果所有元素都服从高斯分布,就是高斯正交系综(GOE);它的分布在任何正交相似变换 $\mathbf{O}\mathbf{W}\mathbf{O}^\top$ 下不变,所以叫"正交"。复埃尔米特版本叫 GUE(酉对称),四元数版本叫 GSE(辛对称)。GOE/GUE/GSE 这三件套在物理里对应"是否有时间反演对称性 + 自旋是否为半整数"——这是为什么同一组矩阵在原子核、量子混沌、统计物理里反复出现。
类比。 把一张 Erdős–Rényi 社交图的边权 $w_{ij}$ 想成两人之间的"亲密度"。这张亲密度矩阵的特征值告诉你它的整体社群结构;如果亲密度本身是随机的,结构就由我们马上要讲的普适律给出。
2.2 Wishart 矩阵:样本协方差
设 $\mathbf{X}\in\mathbb{R}^{n\times p}$ 的元素独立同分布,均值 0,方差 1。Wishart 矩阵(也叫样本协方差)是
$$ \mathbf{S} \;=\; \frac{1}{n}\mathbf{X}^\top\mathbf{X} \;\in\; \mathbb{R}^{p\times p}. $$当 $n\gg p$ 时,$\mathbf{S}$ 是真协方差的好估计。但当 $n,p$ 同时很大、$p/n$ 保持有限时,$\mathbf{S}$ 会以一种结构化的、可预测的方式失真——这正是 Marchenko–Pastur 律告诉我们的。
类比。 跟踪 $p=500$ 只股票一年($n\approx 252$ 个交易日)。你算的协方差矩阵有 $125{,}000$ 个自由参数,却只有约 $126{,}000$ 个数据点;估计本身就是一个随机矩阵,即使真协方差是单位阵,特征值也会按 RMT 规律摊开。
3. Wigner 半圆律
3.1 定理陈述
设 $\mathbf{W}$ 是 $n\times n$ 的 Wigner 矩阵,非对角方差为 $\sigma^2$。归一化矩阵
$$ \hat{\mathbf{W}} \;=\; \frac{\mathbf{W}}{\sigma\sqrt{n}}. $$当 $n\to\infty$ 时,经验谱分布 $\frac{1}{n}\sum_i \delta_{\lambda_i(\hat{\mathbf{W}})}$ 几乎必然弱收敛到半圆密度
$$ f(x) \;=\; \frac{1}{2\pi}\sqrt{4-x^2},\qquad x\in[-2,2], $$在 $[-2,2]$ 之外 $f(x)=0$。
3.2 三种角度看清"为什么是半圆"
1) 矩方法(严格证明的主线)。 计算 $m_k=\mathbb{E}[\frac{1}{n}\operatorname{tr}\hat{\mathbf{W}}^k]$。把迹展开成 $n$ 个顶点上的长度为 $k$ 的闭路径之和,每条路径配上对应矩阵元矩的乘积。独立性 + 均值 0 强迫只剩下两两配对、且配对是非交叉的路径——这正是 Catalan 数 $C_{k/2}$ 所计数的对象。Catalan 数恰好是半圆分布的偶阶矩,于是极限只能是半圆。
$$ \rho(\lambda_1,\dots,\lambda_n) \;\propto\; \prod_{i3) 自由 CLT(代数视角)。 对称随机矩阵可以写成大量"自由"秩 1 扰动之和。在自由概率里,“独立变量求和"的对应物是自由加法卷积,它的中心极限定理给出半圆分布——而不是高斯。详见第 7 节。
3.3 为什么底层分布无关紧要
半圆律是普适的:把元素从高斯换成均匀、$\pm 1$ 或任何其他均值 0、方差有限的分布,极限都是同一条半圆。这正是经典 CLT 的镜像——和的归一化极限是高斯,与每个加项的具体分布无关。
机制也是同一个:归一化只让二阶矩存活,其他细节都被平均掉了。
3.4 代码验证
| |
实际上 $n=200$ 已经能看到几乎完美的吻合。
4. Marchenko-Pastur 律
4.1 定理陈述
设 $\mathbf{X}$ 是 $n\times p$、元素独立同分布、均值 0、方差 1,记 $\gamma=p/n$(纵横比)。当 $n,p\to\infty$、$\gamma$ 固定时,$\mathbf{S}=\frac{1}{n}\mathbf{X}^\top\mathbf{X}$ 的经验谱分布收敛到 Marchenko-Pastur 密度
$$ f(\lambda) \;=\; \frac{1}{2\pi\gamma\,\lambda}\sqrt{(\lambda_+-\lambda)(\lambda-\lambda_-)},\qquad \lambda\in[\lambda_-,\lambda_+], $$其中边界为
$$ \lambda_\pm \;=\; (1\pm\sqrt{\gamma})^2. $$如果 $\gamma>1$,则 $\mathbf{S}$ 的秩至多为 $n
4.2 这条密度告诉我们什么
即使总体协方差就是单位阵,有限样本也会把特征值摊开:
- $\gamma=0.1$:边界 $[0.47, 1.69]$——轻微展宽。
- $\gamma=0.5$:边界 $[0.09, 2.91]$——最大样本特征值是真值的三倍。
- $\gamma=1.0$:边界 $[0,4]$——谱触底为零,矩阵濒临奇异。
这条密度是统计学里所有 RMT 应用的定量依据:任何严格大于 $\lambda_+$ 的样本特征值是显著的;落在 $[\lambda_-,\lambda_+]$ 区间里的,与纯噪声不可区分。

4.3 代码
| |
5. 精细结构:排斥与边缘
半圆律和 MP 律描述的是主体——宏观形状。RMT 在两个更细的尺度上还有精确结论。
5.1 间距分布:特征值彼此排斥
固定主体内部的某个点,看它到最近邻特征值的距离(用局部平均间距归一化)。对 GOE 矩阵,这个间距近似服从 Wigner 猜测
$$ p(s) \;=\; \frac{\pi s}{2}\exp\!\Big(-\frac{\pi s^2}{4}\Big). $$关键是 $p(0)=0$:特征值不会重合。它们主动排斥,对 GOE 在 $s=0$ 处以二次方式趋零(GUE 是三次——不同对称类有不同的排斥指数)。
对照之下,独立的随机能级,间距分布是指数 $p(s)=e^{-s}$,在 $s=0$ 处取最大值。“独立时该聚堆"恰恰是特征值绝不去做的事。

5.2 边缘:Tracy-Widom 律
$n\times n$ 的 GOE 矩阵的最大特征值 $\lambda_{\max}$ 在大 $n$ 下贴近 $2$,但它的涨落非常小——量级是 $n^{-2/3}$,不是你直觉以为的 $n^{-1/2}$。具体地,
$$ n^{2/3}\big(\lambda_{\max}-2\big) \;\xrightarrow{d}\; \mathrm{TW}_1, $$其中 $\mathrm{TW}_1$ 是 $\beta=1$ 的 Tracy-Widom 分布。它高度不对称:左尾超指数衰减(你几乎看不到 $\lambda_{\max}$ 显著小于 2),右尾按 $\exp(-\frac{2}{3}t^{3/2})$ 慢一些(极端大值会出现,但稀有)。同一个 TW 分布也支配着随机置换的最长上升子序列、生长晶体的高度涨落,以及现代统计里大随机矩阵的最大奇异值。
5.3 随机谱 vs 确定谱
一张图就把全部对比讲清楚了:随机 Wigner 谱是一片平滑、强相关的主体;确定谱则是几个尖簇,每个簇内部只有独立的采样噪声。

6. 应用
6.1 无线通信:MIMO 容量随天线线性增长
发射 $n_t$ 根、接收 $n_r$ 根天线的 MIMO 信道,容量为
$$ C \;=\; \sum_i \log_2\!\Big(1 + \frac{\mathrm{SNR}}{n_t}\lambda_i\Big), $$其中 $\lambda_i$ 是 $\mathbf{H}\mathbf{H}^\dagger$ 的特征值,$\mathbf{H}$ 是随机信道矩阵。MP 律告诉我们 $\lambda_i$ 的极限密度,对 $\log_2(1+\mathrm{SNR}\cdot\lambda)$ 积分就得到遍历容量。结论是容量随 $\min(n_t,n_r)$ 线性增长——这是今天的手机、基站、Wi-Fi 路由器都堆多天线的理论根源。
| |
6.2 金融:清洗样本协方差
跟踪 $p$ 只股票 $n$ 个交易日;任何现实场景下纵横比 $\gamma=p/n$ 都不接近 0。MP 边界精确告诉你哪些样本特征值是"噪声”。标准流程:
- 特征分解:$\mathbf{S}=\mathbf{U}\,\mathrm{diag}(\lambda_1,\dots,\lambda_p)\,\mathbf{U}^\top$;
- 估噪声方差 $\sigma^2$(比如用 MP 主体内特征值的均值);
- 算 $\lambda_\pm=\sigma^2(1\pm\sqrt{\gamma})^2$;
- 把 $[\lambda_-,\lambda_+]$ 内的特征值全部替换为它们的均值(或更精细的收缩);
- 重构 $\tilde{\mathbf{S}}=\mathbf{U}\,\mathrm{diag}(\tilde\lambda_i)\,\mathbf{U}^\top$。
用 $\tilde{\mathbf{S}}$ 构建的投资组合,样本外夏普比率通常提升 $10\%$–$30\%$,换手率显著降低。

| |
6.3 高维 PCA:到底保留几个主成分?
PCA 流程里"保留几个主成分"在 $p\approx n$ 时几乎没有好答案。RMT 给出一个干脆的回答:保留所有大于 $\lambda_+=(1+\sqrt{\gamma})^2$ 的特征值。 凡是落在 MP 边缘以下的,都和独立同分布噪声不可区分。
| |
6.4 尖峰协方差与 BBP 相变
上面那个 PCA 准则在信号微弱时还不够诚实。更现实的模型是尖峰协方差:总体协方差 $\Sigma=\mathbf{I}+\sum_{k=1}^{r}(s_k-1)\mathbf{v}_k\mathbf{v}_k^\top$,即单位阵加 $r$ 个"尖峰”。Baik-Ben Arous-Péché(BBP)相变告诉我们:
- 如果总体尖峰 $s_k>1+\sqrt{\gamma}$,对应的样本特征值会脱离 MP 主体,落在 $s_k+\gamma s_k/(s_k-1)$,且样本特征向量与 $\mathbf{v}_k$ 有正余弦相关;
- 如果 $s_k\le 1+\sqrt{\gamma}$,尖峰是不可见的:它被埋进 MP 主体里,无论用多聪明的算法都还原不出 $\mathbf{v}_k$。
这是高维 PCA 的一条硬性不可能定理:它精确告诉你什么时候必须收集更多样本,什么时候这个问题在当前 $n,p$ 下统计上无解。

6.5 神经网络初始化
权重 $\mathbf{W}$ 的初始化让 $\mathbf{W}^\top\mathbf{W}$ 的特征值集中在 $1$ 附近,激活的方差才能逐层稳定。Xavier/Glorot 法则 $\mathrm{Var}(w_{ij})=2/(n_\text{in}+n_\text{out})$ 恰好让 $\mathbf{W}$ 的奇异值落在以 $1$ 为中心的 MP 支撑里。正交初始化更进一步——它直接消除奇异值的展宽,深线性网络中信号传播因此可以严格保等距。
7. 工具箱
7.1 Stieltjes 变换
任意 $\mathbb{R}$ 上的概率测度 $\mu$ 都有 Stieltjes 变换
$$ m_\mu(z) \;=\; \int\frac{d\mu(\lambda)}{\lambda-z},\qquad z\in\mathbb{C}^+. $$$$ f(\lambda) \;=\; -\frac{1}{\pi}\lim_{\eta\to 0^+}\operatorname{Im}\,m_\mu(\lambda+i\eta). $$为什么要用它?因为经验谱分布的 Stieltjes 变换正好等于 $\frac{1}{n}\operatorname{tr}(\mathbf{M}-z\mathbf{I})^{-1}$,而预解算子(resolvent)便于代数操纵。现代 RMT 的大多数证明都在 Stieltjes 变换层面进行:写出 $m(z)$ 满足的自洽方程,求解,反演。
对半圆律,自洽方程是 $m(z)^2+zm(z)+1=0$,解为 $m(z)=(-z+\sqrt{z^2-4})/2$。MP 律的方程同样小巧。
7.2 一段话讲清楚自由概率论
在自由概率里,“非交换随机变量” $a,b$ 是自由独立的,当且仅当它们的交替混合矩按特定的迹方式分解。Voiculescu 的核心定理是:大型独立随机矩阵在极限下渐近自由。卷积的自由对应物——自由加法卷积 $\boxplus$——把 $\mathbf{A}$ 与 $\mathbf{B}$ 的谱分布映到 $\mathbf{A}+\mathbf{B}$ 的谱分布。对应的中心极限定理给出半圆分布。实用结论:所有你对独立标量随机变量之和会做的事(求均值、方差、CLT、Berry-Esseen 估计),独立矩阵之谱都有一个自由对应物。

7.3 半圆律的证明骨架(矩方法)
计算 $m_k=\mathbb{E}[\frac{1}{n}\operatorname{tr}\hat{\mathbf{W}}^k]$。把迹展开成 $\{1,\dots,n\}$ 上长度为 $k$ 的闭路径之和,权重是 $\prod_e\mathbb{E}[w_e]$。独立性 + 均值 0 杀掉所有"含有奇数次某条边"的路径。$k$ 为偶数时,主导贡献来自两两配对、且配对非交叉的路径——它们恰好被 Catalan 数 $C_{k/2}$ 计数,归一化后权重为 $1$。Catalan 数正是半圆分布的偶阶矩,所以极限只能是半圆。
8. 练习题
基础题
- 写出 $3\times 3$ GOE(对角方差 $2$、非对角方差 $1$)的 $\mathbb{E}[\mathbf{W}]$ 与 $\mathrm{Cov}(w_{ij},w_{kl})$。
- 为什么需要 $1/\sqrt{n}$ 归一化?不归一化时 $\lambda_{\max}$ 会怎样?
- 给定 $\gamma=0.5$,算出 $\lambda_\pm$ 并草图 MP 密度。它的最大值在哪里?
计算与证明
- 用代换 $x=2\sin\theta$ 证明 $\int_{-2}^{2}\frac{1}{2\pi}\sqrt{4-x^2}\,dx=1$。
- 计算半圆分布的二阶、四阶矩,并验证它们等于 Catalan 数 $C_1$ 和 $C_2$。
- 设 $\mathbf{X}$ 元素独立同分布于 $\mathcal{N}(0,1)$,证明 $\mathbb{E}[\mathbf{X}^\top\mathbf{X}]=n\mathbf{I}_p$。
- 推导 $2\times 2$ 对称高斯矩阵两个特征值的联合密度,指出排斥因子。
编程题
- 数值验证 Wigner 猜测:取 $200$ 个 $n=500$ 的 GOE 矩阵,计算主体最近邻间距、用局部均值归一化,对照 $p(s)$ 与 $e^{-s}$。
- 画 $\gamma\in\{0.1,0.5,1.0,2.0\}$ 的 MP 直方图。$\gamma>1$ 时单独统计零特征值。
- 画 $2\times 2,4\times 4,8\times 8,16\times 16$ 的 MIMO 容量随 SNR 曲线,验证高 SNR 下"天线翻倍、容量翻倍”。
- 复现 BBP 相变:固定 $\gamma=0.5$,让尖峰强度 $s$ 从 $1$ 扫到 $3$,画最大样本特征值与 $s$ 的关系,标出预测的临界点 $s=1+\sqrt{\gamma}$。
应用题
- 量化研究员跟踪 $100$ 只股票 $200$ 天。算 $\gamma$,求 $[\lambda_-,\lambda_+]$,判断样本特征值 $3.5$ 是信号还是噪声。
- $8\times 4$ 复高斯 MIMO 信道:写出容量表达式,估计 $30$ dB 时的容量,预测升级到 $16\times 8$ 后的增益。
- 给定 $1000$ 样本 $500$ 维:算出 MP 阈值,并解释怎样用它来选 PCA 主成分数。
进阶题
- 查 Tracy-Widom 密度及其在高维 MANOVA 的 Roy 最大根检验中的角色。为什么 $p/n$ 不小时经典的卡方近似就坏了?
- 严谨陈述 BBP 相变。为什么没有任何估计量能检测到亚临界尖峰?
- 为什么复杂原子核的能级间距服从 GOE 统计?时间反演对称性如何决定 GOE 与 GUE 的选择?
9. 本章总结
模型: Wigner 矩阵建模对称噪声;Wishart 矩阵建模样本协方差。GOE/GUE/GSE 三个高斯版本对应不同对称类。
主体律: Wigner 谱的半圆律与 Wishart 谱的 Marchenko-Pastur 律。两者都是普适的——只要元素分布有有限方差,与具体形态无关。
精细结构: 特征值按已知规律排斥(Wigner 猜测);最大特征值的涨落量级是 $n^{-2/3}$,服从 Tracy-Widom 分布。
工具: Stieltjes 变换把谱问题翻译成代数方程;自由概率把经典 CLT 风格的论证提升到独立矩阵之谱的世界。
为什么重要: RMT 在 MIMO 容量、协方差清洗、PCA 阈值、尖峰模型的 BBP 相变、神经网络初始化里都给出尖锐的、常常是无参数的预测。每一处教训都是同一个:高维随机有一副隐藏的、确定的骨架,你可以把它用起来。
参考资料
- Bai, Z., & Silverstein, J. W. Spectral Analysis of Large Dimensional Random Matrices. Springer, 2010.
- Anderson, G. W., Guionnet, A., & Zeitouni, O. An Introduction to Random Matrices. Cambridge University Press, 2010.
- Mehta, M. L. Random Matrices. Academic Press, 2004.
- Tao, T. Topics in Random Matrix Theory. AMS, 2012.
- Tulino, A. M., & Verdú, S. Random Matrix Theory and Wireless Communications. Foundations and Trends, 2004.
- Bouchaud, J.-P., & Potters, M. Financial Applications of Random Matrix Theory. arXiv:0910.1205, 2009.
- Couillet, R., & Debbah, M. Random Matrix Methods for Wireless Communications. Cambridge University Press, 2011.
- Baik, J., Ben Arous, G., & Péché, S. “Phase transition of the largest eigenvalue for nonnull complex sample covariance matrices.” Annals of Probability, 2005.
系列导航
- 上一篇: 第十三章:张量与多线性代数
- 下一篇: 第十五章:机器学习中的线性代数
- 完整系列: 线性代数的本质(1–18)